Introduction à la génomique fonctionnelle Cours aux étudiants de BSc Biologie 3ème année Philippe Reymond, MER PLAN DU COURS - Séquençage des génomes - DNA microarrays - Autres méthodes globales d'analyse du génome - Analyse des données, exemples de résultats http://www.unil.ch/dbmv/page26947_en.html 1
Génomique Analyse globale du génome d un organisme Tous les gènes et régions intergéniques 1. Génomique structurelle - Organisation et position des gènes, taille du génome - Comparaison des génomes de différents organismes - Séquençage de l ADN et analyse des séquences 2. Génomique fonctionnelle - Fonction des gènes - Analyse globale de l expression génétique - Disruption systématique des gènes (Knock-outs, RNAi) 2
Taille des génomes Angiospermes Oiseaux Mammifères Reptiles Amphibiens Poissons osseux Poissons cartilagineux Echinodermes Crustacés Insectes Mollusques Vers Moisissures Algues Champignons Bactéries gram-positives Bactéries gram-négatives Mycoplasmes 10 0 10 1 10 2 10 3 10 4 10 5 Millions de bases 3
Historique du séquençage de génomes 4
Séquençage du génome (méthode "shotgun") TAGCCCGTTGAATTCGGAATT CGGAATTGGCGGTAACCCGTGCCGAATTT TGCCGAATTTCTAGGCCGGCCT... 5
Séquençage du génome humain Francis Collins, Human Genome Project Craig Venter (Celera Inc.) 6
Human Genome Project Celera QUI SÉQUENCER? Plusieurs donneurs anonymes 5 donneurs anonymes (5-10) hommes et femmes 2 hommes, 3 femmes COMMENT? "BAC to BAC" "Whole genome shotgun" 20 groupes 65 techniciens gels et capillaires 250 ABI Prism 3700 Analyzer (96 capillaires) max 200'000 réactions/24h max 1000 b/sec 175'000 réactions/24h 1100 b/sec 23.1 Mia bases séq. (7.5 génomes) 14.8 Mia bases séquencées (5.1 génomes) 4 années 9 mois 10 ordinateurs (4 processeurs, 4 Gb RAM) 1 ordinateur (16 processeurs, 64 Gb RAM) Calcul 20'000 heures Séquençage du génome de Craig Venter PLOS Biology (2007) 5: e254 44% des gènes présentent des variations de séquence 17% des protéines sont modifiées 7
Annotation du génome TGACGCAATGAACGATGGCTAGGCTTAGCTTTTGGCCAGCATTACCCGGTACC TGTTACTGCGATTGGCTAACCAGGCCGGATTTCCAAGGTTCGCCAGGGGCTAA TTGACACCACCACCTTACCTGGTATTCCCTAATGGTAAGCGCGATGCTA... algorithmes de prédiction Comment améliorer les prédictions? - génomique comparative - analyse de cdnas complets - entraînement des algorithmes sur des gènes connus - sondes oligonucéotides scannant tout le génome - vérification expérimentale 8
"Junk DNA?" Des régions non transcrites du génome sont extrêmement bien conservées entre organismes depuis des millions d'années. Leur fonction est toujours inconnue. 9
Nombre de gènes Organisme Nb de gènes prédits % gènes connus M. genitalium 470 69% H. influenza 1 709 58% E. coli 4 288 62% S. cerevisiae 6 034 63% T. pseudonanna 11'242 50% D. melanogaster 13 601 46% C. elegans 18 424 42% A. thaliana 27'029 69% M. musculus 24'502 50% P. troglodytes 20'947 50% H. sapiens 22'763 50% Quelle est la taille minimum du génome pour qu une cellule fonctionne? Mutations systématiques par transposons du génome de Mycoplasma genitalium: 265-350 gènes sont essentiels pour une croissance en laboratoire (100 n ont pas de fonction connue!) Hutchinson et al. (1999) Science 286: 2165-2169 10
Séquençage des génomes (références) Organismes modèles Escherichia coli Blattner et al. (1997) Science 277: 1453-1462 Saccharomyces cerevisiae Goffeau et al. (1996) Science 274: 546-567 Caenorhabditis elegans The C. elegans consortium (1998) Science 282: 2012-2046 Drosophila melanogaster Adams et al. (2000) Science 287: 2185-2195 Arabidopsis thaliana The Arabidopsis genome initiative (2000) Nature 408: 796-815 Homo sapiens International Human Genome Sequencing Consortium (2001) Nature 409: 860-921 Venter et al. (2001) Science 291: 1304-1351 Mus musculus Mouse Genome Sequencing Consortium (2002) Nature 420: 520-562 Takifugu rubripes Aparicio et al. (2002) Science 297: 1301-1310 Rattus norvegicus Rat Genome Sequencing project Consortium (2004) Nature 428: 493-521 Gallus gallus International Chicken genome Sequencing Consortium (2004) Nature 432: 695-716 Pan troglodytes (chimpanze) The Chimpanzee Sequencing and Analysis consortium (2005) Nature 437:69-87 Apis mellifera The Honeybee genome Sequencing consortium (2006) Nature 443:931-949 Autres (en cours) http://www.genomenewsnetwork.org/resources/sequenced_genomes/genome_guide_p1.shtml http://www.ncbi.nlm.nih.gov/genomes/index.html http://hgsc.bcm.tmc.edu/projects/ http://www.sanger.ac.uk/projects/ 11
EST (Expressed Sequence Tag) AAAAAA reverse transcription RNase H AAAAAA TTTTTT primer AAAAAA TTTTTT ligation transformation 5' 3' Plasmide AAAAAA TTTTTT DNA pol 1 AAAAAA TTTTTT séquençage partiel vecteur cdna TGACGCAATGAACGGCTAGGCTTAGCTTTTGGCCAGCATTACCCGGTACC TGTTACTGCGATTGGCTAACCAGGCCGGATTTCCAAGGTTCGCCAGG TTGACACCACCACCTTACCTGGTATTCCC... 12
http://www.ncbi.nlm.nih.gov/dbest/dbest_summary.html 13
Nouvelles méthodes de séquençage à haut débit Séquençage 454 (Roche) (http://www.454.com/) PCR Pyroséquençage Pyrophosphate + 5'-Adenylsulfate (APS) Sulfurylase ATP + sulfate Luciferase + luciferin Lumière + oxyluciferin Camera CCD CCD camera Exemple: Séquençage d'adn de Neanderthal Science (2006) 314: 1113-1118 Nature (2006) 444: 330-336 14
SOLiD (Applied Biosystems) 1) Fragments d'adn fixés sur des billes et amplifiés 2) Millions de billes placées sur une surface plane 3) Séquençage par hybridation de sondes fluorescentes Utilisation d'autres primers décalés d'une ou plusieurs bases visible fluorescence Reconstruction de la séquence 15
Comparaisons de génomes (homme-mouche-ver-levure-plante-algue) Les fonctions cellulaires élémentaires métabolisme de base, réplication, transcription de l ADN, traductionsont présentes partout, sont apparues une fois dans l évolution et sont restées fixées depuis. Seulement 94 familles de protéines (sur 1278) sont uniques aux vertébrés. La plus grande différence entre l être humain et le ver our la mouche réside dans la complexité des protéines : il y a plus de domaines par protéine et beaucoup plus de combinaisons de domaines. Nouvelles familles de protéines ou expansion de familles chez l être humain: -réponse immunitaire -développement, structure et fonction du système nerveux -signalisation intra- et intercellulaire dans le développement et l homeostasie -système sanguin -apoptose 16
Duplications du génome d'arabidopsis Chr1 Chr2 Chr3 Chr4 Chr5 Nature (2001), 408: 796-815 3 duplications: 221 Mio années 162 Mio années 75 Mio années (calcul: 6.1 mutations synonymes/mia années/site) 17
Comment déterminer la fonction d'un gène - Analyse de la séquence, comparaison avec des gènes similaires (motifs conservés, homologues dans d'autres espèces, etc ) - Localisation dans la cellule, tissu, organisme - Intéractions avce d'autres produits de gènes - Mutants, surexpression, knock-outs Analyse de l'expression 18
Analyse de l'expression d'un gène par Northern blot Echantillons d'arn sonde ADN marquée - 1 2 3 4 5 Transfert + Gel d'agarose Membrane de nylon 19
Les puces à ADN (DNA microarrays, DNA chips) M. Schena, D. Shalon, R. Davis, P. Brown (1995) Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science 270: 467-470 Lipshutz, R. J.; Morris, D.; Chee, M.; Hubbell, E.; Kozal, M. J.; Shah, N.; Shen, N.; Yang, R.; Fodor, S. P. (1995) Using oligonucleotide probe arrays to access genetic diversity. BioTechniques 19(3), 442-7 Applications Mesure globale de l expression génétique Recherche fondamentale et appliquée dans tous les domaines Diagnostic médical, nouveaux médicaments Analyse d amplifications et de délétions de gènes Caractéristique de certains cancers Analyses du génome Single Nucleotide Polymorphisms (SNP), mutations, séquences répétées Etc 20
Révolution «-omique» ADN A B C GENOMIQUE Puces à ADN (DNA microarrays) (DNA chips) ARN Protéine PROTEOMIQUE Métabolite METABOLOMIQUE 21
Préparation d'adn pour microarrays cdna dans E.coli culture préparation de plasmide ADN génomique PCR purification oligonucléotide (50-70bp) stockage -20 C 22
Impression de microarrays ADN en solution Lames de microscope modifiées chimiquement 23
Robot d'impression 24
DNA microarray avant lavage 25
Fixation d'adn sur les lames Aldehydes Poly-lysines 26
Marquage et hybridation Echantillon contrôle Echantillon test Cy3-dCTP Extraction d'arn Transcription inverse Cy5-dCTP cdna simple brin marqué microarray Hybridation 12-16 hr (64 C) lavages Scan de fluorescence canal Cy3 + canal Cy5 analyse d'image 27
Nucléotides fluorescents Cy3-dCTP Cy5-dCTP dctp dctp 28
Eucaryotes RNA ou mrna Préparation de cdna AAAAAAAAAAA TTTTTTT(18-21) Transcriptase inverse Cy3-dCTP (ou Cy5-dCTP) OligodT C C AAAAAAAAAAA TTTTTTT(18-21) RNA hexamers Procaryotes Transcriptase inverse Cy3-dCTP (ou Cy5-dCTP) C C 29
Hybridation microarray Gène x Gène y Gène z 30
Scanner de fluorescence 31
32
Analyse d'image Spot Cy3 Cy5 Rapport 1 3500 4305 1.2 2 28000 32000 1.1 3 1500 14800 9.9* 4 18089 21456 1.2 5 43789 44005 1.0 6 679 890 1.3 7 3560 18900 5.3* 33
Normalisation des canaux (petit nombre de gènes) laser C1 C2 C3 C4 C5 C6 Intensité du signal C1 C2 C3 Cy5 Cy3 C4 C5 C6 Distance Ajustement du laser et du PMT pour que les gènes constituitfs aient le même signal dans chaque canal 34
Microarray d'arabidopsis contenant 12'000 gènes 35
Normalisation des canaux (grand nombre de gènes) 65000 Signal Cy5 0 0 Signal Cy3 65000 Itérations mathématiques pour que la médiane des rapports Cy3/Cy5 soient de 1.0 36
Mesure du rapport d expression R = (Cy5-Bgd)*F / (Cy3-Bgd) F=facteur de normalisation Cy3 Cy5 Intensité du signal A B C Gènes 37
Test de cross-hybridation gene 1 exon 1 exon 2 At3g19760 RNA helicase GST1 GST2 100% 65% 100% 74% % homologie gene 2 GST3 100% 85% exon 1 exon 2 At1g51380 RNA helicase (paralogue) 1. Hybridation avec le gène1 marqué au Cy3 -> 100% signal avec les trois GSTs 2. Hybridation avec le gène2 marqué au Cy3 -> seulement 15% signal avec GST3 Cross-hybridation si >70-75% homologie 38
Test du seuil de sensibilité 45000 40000 35000 Signal 30000 25000 20000 15000 Cy3 10000 Cy5 5000 Seuil (1500) 0 0.001 0.01 0.1 1 10 ng ARN 1. Il y a 100'000-500'000 mrnas par cellule 2. On détecte 0.01 ng de mrna sur un total de 2 µg marqués (rapport 1/200'000) ---> on peut mesurer la présence de env. 1 copie par cellule 39
Fabrication de puces à oligonucléotides (10-70 nt) Synthèse chimique sur une surface de verre -Chips Affymetrix: photolithogravure -Chips NimbleGen: photolithogravure - Autres: imprimantes à jet d encre G T C G G T A C G G G T 40
Affymetrix Genechips Fabrication par photolithogravure 41
Affymetrix Genechips Wafer GeneChip 1.28 cm 12.7cm Sondes 500 000 zones de synthèse 10 6 to 10 7 oligonucleotides (25 mer) identiques dans chaque zone A T C G 42
Affymetrix Genechips Marquage et analyse crna-biotin ARN Transcription inverse In vitro transcription Affymetrix chip Fragmentation Hybridization Avidin-Fluorescein A F Lavage Marquage Scan Analyse 43
Affymetrix Genechips Analyse du signal Séquence de référence Sondes oligonucléotides Image de fluorescence Perfect match oligos Mismatch oligos Applications: -mesure d'expresion des gènes -reséquençage -analyse de SNP 44
NimbleGen oligonucleotide chip 45
Annotation expérimentale du génome (tiling arrays) Schoemaker et al. (2002) Nature 409: 922-927 46
Microarrays vs Affymetrix Impression d'adn "DNA microarrays" Synthèse d'adn in situ "oligonuclotide chips", "Affymetrix chips" Déposition par contact ou jet d'encre Synthèse sur la lame (photolithogravure ou jet d'encre). -fragments PCR -clones -longs oligonucléotides (50-70 nt) Connaissance de la séquence pas nécessaire à l'avance Double marquage (Cy3 + Cy5) Oligonucléotides (25 nt) Connaissance de la séquence nécessaire Simple marquage (biotin-avidin-fluorescein) > 60'000 spots par lame > 500'000 oligos par lame (env. 40'000 gènes) Robot, scanner Prix abordable (gènes à préparer) Appareil à hybrider, scanner Cher 47
SAGE (Serial Analysis of Gene Expression) mrna cdna 5 biotin restriction 1 adapteur bille magnétique streptavidin restriction 2 tag assemblage...... clonage séquençage comptage 48
Analyse des données de microarrays Contrôle Traité Comment identifier un gène induit ou réprimé? 1. Seuil arbitraire (signal 2 fois plus grand dans la condition 1 que dans la condition 2) 2. Répliquer l'expérience Analyse statistique: test student t H 0 µi=1 Si µi différent de 1, le gène est induit avec P<0.05 49
CTL1 vs CTL2 Pas de traitement (moyenne de 6 réplicats indépendants) Rapport d'expression (Log2Cy5/Cy3) >2 fois >-2 fois Intensité du signal 50
CTL vs Pieris rapae Effet de Pieris rapae sur l'expression génétique chez Arabidopsis thaliana (moyenne de 5 réplicats indépendants) Rapport d'expression(log2 Cy5/Cy3) Intensité du signal 51
Analyse statistique du changement d'expression Effet de Pieris rapae sur l'expression génétique chez Arabidopsis thaliana Répression > 2 fois Induction > 2 fois P<0.05 Arabidopsis microarray (12'000 gènes), t-test sur 5 réplicats indépendants 52
Comparaison de deux expériences Blessure Test t µ1= µ2 et rapport > ou < 2 Gène induit ou réprimé par la blessure et par l'insecte Gène plus induit ou plus réprimé par la blessure ou par l'insecte Gène pas induit 53
Plusieurs expériences Diagramme de Venn FLOWERING LOCUS T (FT) Wigge P. et al. (2005) Science 309, 1056-1059 54
Hierarchical clustering Gènes Rapport d'expression Expériences 55
insecte jasmonates blessure 110 expériences 12'00 gènes groupe A groupe B groupe C 56
patients Cancer du sein Tumeurs impossibles à différencier par analyses classiques gènes 57
Le microarray comme outil diagnostique Van't Veer et al. (2002) Nature 415:530-535 58
Analyse de correspondance Toutes les mesures d'expression (tous les gènes) d'une expérience sont comparées à celles d'autres expériences 59
Self organizing maps (SOM) Nombre défini de groupes 60
Analyse de promoteurs 61
Analyse de promoteurs: un exemple Nouvel élément contrôlant l'horloge circadienne d'arabidopsis Harmer et al. (2000) Science 290:2110 62
ChIP-chip Facteur de transcription Fixation Sonication ORF Glucose --> Galactose TF Immunoprecipitation Marquage Cy5 Contrôle: DNA génomique Cy3 Ren et al. (2000) Science 290:2306 Microarray contenant des régions intergéniques 63
Mesure du nombre de copies de gènes dans le génome 64
Analyse de changements d'expression au cours de l'évolution Evolution expérimentale (250 générations) Levures dans un milieu pauvre en glucose Analyse globale de l'expression génétique (tous les gènes: 6124) Résultats 3% de changement d'expression Utilisation optimale du glucose pour la production d'atp -diminution de la fermentation -augmentation de la respirationn Discussion L'identité des mutations n'est pas connue et ne peut être mesurée: on mesure le résultat et pas la cause Ferea et al. (1999) PNAS 96:9721-9726 65
Evolution expérimentale de Myxococcus xanthus Séquencage du génome d'origine et du génome du mutant évolué PX Velicer et al. (2006) PNAS 103, 8107-8112 66
Développement de médicaments gène cible 67
Références utiles Bibliographie nature genetics supplement -vol 21- january 1999 Eisen MB and Brown PO (1999) DNA arrays for analysis of gene expression. Methods in Enzymology 303: 179-205 Hedge P et al. (2000) A concise guide to cdna microarray analysis. BioTechniques 29: 548-562 http://www.nslij-genetics.org/microarray/index.html Databases http://www.ncbi.nlm.nih.gov/geo http://www.ebi.ac.uk/microarray-as/aer/entry http://smd-www.stanford.edu/ http://www.genevestigator.ethz.ch 68