Introduction à la génomique fonctionnelle Cours aux étudiants de BSc Biologie 3ème année Philippe Reymond, MER PLAN DU COURS - Séquençage des génomes - Méthodes globales d'analyse du génome - Analyse des données, applications http://www.unil.ch/dbmv/page26947_en.html 1
Génomique Analyse globale du génome dʼun organisme Tous les gènes et régions intergéniques 1. Génomique structurelle - Organisation et position des gènes, taille du génome - Séquençage de lʼadn et analyse des séquences 2. Génomique fonctionnelle Analyse du génome pour comprendre la fonction des gènes - Comparaisons de génomes entre organismes - Expression du génome - Variabilité du génome 2
Taille des génomes Angiospermes Oiseaux Mammifères Reptiles Amphibiens Poissons osseux Poissons cartilagineux Echinodermes Crustacés Insectes Mollusques Vers Moisissures Algues Champignons Bactéries gram-positives Bactéries gram-négatives Mycoplasmes 10 0 10 1 10 2 10 3 10 4 10 5 Millions de bases 3
Historique du séquençage de génomes 4
Séquençage du génome (méthode "shotgun") TAGCCCGTTGAATTCGGAATT CGGAATTGGCGGTAACCCGTGCCGAATTT TGCCGAATTTCTAGGCCGGCCT... 5
Séquençage du génome humain Francis Collins, Human Genome Project Craig Venter (Celera Inc.) 6
Séquençage du génome humain Human Genome Project Celera QUI SÉQUENCER? Plusieurs donneurs anonymes 5 donneurs anonymes (5-10) hommes et femmes 2 hommes, 3 femmes COMMENT? "BAC to BAC" "Whole genome shotgun" 20 groupes 65 techniciens gels et capillaires 250 ABI Prism 3700 Analyzer (96 capillaires) max 200'000 réactions/24h max 1000 b/sec 175'000 réactions/24h 1100 b/sec 23.1 Mia bases séq. (7.5 génomes) 14.8 Mia bases séquencées (5.1 génomes) 4 années 9 mois 10 ordinateurs (4 processeurs, 4 Gb RAM) 1 ordinateur (16 processeurs, 64 Gb RAM) Calcul 20'000 heures 7
Séquençage personnalisé Séquençage du génome de Craig Venter PLOS Biology (2007) 5: e254 Methode Sanger (9 mois) 44% des gènes présentent des variations de séquence 4107 protéines sont modifiées Différence dans 7648 protéines Séquençage du génome de James Watson Nature (2008) 452: 872-877 Méthode 454 (2 mois) < 1 mio $ 3.3 mio SNPs 11'000 SNPs changent la séquence d'une protéine En cours: 1000 genomes humains 1001 genomes d'arabidopsis www.1000genomes.org http://1001genomes.org 8
Nouvelles méthodes de séquençage à haut débit Séquençage 454 (Roche) (http://www.454.com/) PCR Pyroséquençage Pyrophosphate + 5'-Adenylsulfate (APS) Sulfurylase ATP + sulfate Luciferase + luciferin Lumière + oxyluciferin Camera CCD Séquençage de environ 400 nt/ fragment d'adn CCD camera Exemple: Séquençage d'adn de Neanderthal Science (2006) 314: 1113-1118 Nature (2006) 444: 330-336 9
Illumina Genome Analyzer 10
Le séquenceur Illumina du CIG 24 mio fragments d'adn / ligne Séquençage de environ de 75 nt/fragment --> 1 ligne = 1.8 mia bp 11
Annotation du génome TGACGCAATGAACGATGGCTAGGCTTAGCTTTTGGCCAGCATTACCCGGTACC TGTTACTGCGATTGGCTAACCAGGCCGGATTTCCAAGGTTCGCCAGGGGCTAA TTGACACCACCACCTTACCTGGTATTCCCTAATGGTAAGCGCGATGCTA... algorithmes de prédiction Epissage A64 G73 G100 T100 A62 G84 T63 6 Py74-87 N C65 A100 G100 N N% = fréquence du nucléotide N à cette position Comment améliorer les prédictions? - génomique comparative - analyse de cdnas complets - entraînement des algorithmes sur des gènes connus - vérification expérimentale 12
Prédictions de gènes chez Arabidopsis Nombre de gènes 350 300 250 200 150 100 50 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Start centromere Position sur le chromosome 2 (Mb) gène A Stop EuGène TIGR-AGI TIGR-AGI Start Stop Start Stop EuGène gène A gène B --> Les algorithmes d'annotation font des prédictions qu'il faut vérifier par le séquençage de cdnas 13
"ADN poubelle?" Des régions non transcrites du génome sont extrêmement bien conservées entre organismes depuis des millions d'années. Leur fonction est toujours inconnue. 14
Nombre de gènes chez les organismes modèles Organisme Nb de gènes prédits % gènes connus M. genitalium 470 69% H. influenza 1ʼ709 58% E. coli 4ʼ288 62% S. cerevisiae 6ʼ034 63% T. pseudonanna 11'242 50% D. melanogaster 13ʼ601 46% C. elegans 18ʼ424 42% A. thaliana 27'029 69% M. musculus 24'502 50% P. troglodytes 20'947 50% H. sapiens 22'763 50% Quelle est la taille minimum du génome pour quʼune cellule fonctionne? Mutations systématiques par transposons du génome de Mycoplasma genitalium: 265-350 gènes sont essentiels pour une croissance en laboratoire (100 nʼont pas de fonction connue!) Hutchinson et al. (1999) Science 286: 2165-2169 Tous les gènes d'un organisme sont-ils nécessaires? Une délétion de chaque gène de levure ne présente pas de phénotype dans 80% des cas en milieu riche mais 97% des gènes sont nécessaires en condition de stress, de traitement chimique ou d'environnement modifié. Hillenmeyer et al. (2008) Science 320: 362-365 15
Séquençage des génomes (références) Organismes modèles Escherichia coli Blattner et al. (1997) Science 277: 1453-1462 Saccharomyces cerevisiae Goffeau et al. (1996) Science 274: 546-567 Caenorhabditis elegans The C. elegans consortium (1998) Science 282: 2012-2046 Drosophila melanogaster Adams et al. (2000) Science 287: 2185-2195 Arabidopsis thaliana The Arabidopsis genome initiative (2000) Nature 408: 796-815 Homo sapiens International Human Genome Sequencing Consortium (2001) Nature 409: 860-921 Venter et al. (2001) Science 291: 1304-1351 Mus musculus Mouse Genome Sequencing Consortium (2002) Nature 420: 520-562 Takifugu rubripes Aparicio et al. (2002) Science 297: 1301-1310 Rattus norvegicus Rat Genome Sequencing project Consortium (2004) Nature 428: 493-521 Gallus gallus International Chicken genome Sequencing Consortium (2004) Nature 432: 695-716 Pan troglodytes (chimpanze) The Chimpanzee Sequencing and Analysis consortium (2005) Nature 437:69-87 Apis mellifera The Honeybee genome Sequencing consortium (2006) Nature 443:931-949 Autres http://www.genomenewsnetwork.org/resources/sequenced_genomes/genome_guide_p1.shtml http://www.ncbi.nlm.nih.gov/genomes/index.html http://hgsc.bcm.tmc.edu/projects/ http://www.sanger.ac.uk/projects/ 16
EST (Expressed Sequence Tag) AAAAAA < reverse transcription RNase H AAAAAA TTTTTT primer AAAAAA TTTTTT ligation transformation 5' Gène 3' Plasmide AAAAAA TTTTTT Vecteur DNA pol 1 AAAAAA TTTTTT séquençage partiel vecteur cdna TGACGCAATGAACGGCTAGGCTTAGCTTTTGGCCAGCATTACCCGGTACC TGTTACTGCGATTGGCTAACCAGGCCGGATTTCCAAGGTTCGCCAGG TTGACACCACCACCTTACCTGGTATTCCC... 17
EST (Expressed Sequence Tag) http://www.ncbi.nlm.nih.gov/dbest/dbest_summary.html 18
Comparaisons de génomes (homme-mouche-ver-levure-plante-algue) Les fonctions cellulaires élémentaires métabolisme de base, réplication, transcription de lʼadn, traductionsont présentes partout, sont apparues une fois dans lʼévolution et sont restées fixées depuis. Seulement 94 familles de protéines (sur 1278) sont uniques aux vertébrés. La plus grande différence entre lʼêtre humain et le ver our la mouche réside dans la complexité des protéines : il y a plus de domaines par protéine et beaucoup plus de combinaisons de domaines. Nouvelles familles de protéines ou expansion de familles chez lʼêtre humain: -réponse immunitaire -développement, structure et fonction du système nerveux -signalisation intra- et intercellulaire dans le développement et lʼhomeostasie -système sanguin -apoptose 19
Duplications du génome d'arabidopsis Chr1 Chr2 Chr3 Chr4 Chr5 Nature (2001), 408: 796-815 3 duplications: 221 Mio années 162 Mio années 75 Mio années (calcul: 6.1 mutations synonymes/mia années/site) 20
Comment déterminer la fonction d'un gène - Analyse de la séquence, comparaison avec des gènes similaires (motifs conservés, homologues dans d'autres espèces, etc ) - Localisation dans la cellule, tissu, organisme - Intéractions avec d'autres produits de gènes - Mutants, surexpression, knock-outs - Analyse de l'expression - Corrélation entre génotype et phénotype 21
Analyse de l'expression d'un gène par Northern blot Echantillons d'arn sonde ADN marquée - 1 2 3 4 5 Transfert + Gel d'agarose Membrane de nylon 22
Les puces à ADN (DNA microarrays, DNA chips) M. Schena, D. Shalon, R. Davis, P. Brown (1995) Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science 270: 467-470 Lipshutz, R. J.; Morris, D.; Chee, M.; Hubbell, E.; Kozal, M. J.; Shah, N.; Shen, N.; Yang, R.; Fodor, S. P. (1995) Using oligonucleotide probe arrays to access genetic diversity. BioTechniques 19(3), 442-7 Applications Mesure globale de lʼexpression génétique Recherche fondamentale et appliquée dans tous les domaines Diagnostic médical, nouveaux médicaments Analyse dʼamplifications et de délétions de gènes Caractéristique de certains cancers Analyses des variabilités génomiques et corrélations avec des phénotypes Single Nucleotide Polymorphisms (SNP), mutations, séquences répétées Etc 23
Révolution «-omique» ADN A B C GENOMIQUE Puces à ADN (DNA microarrays) (DNA chips) ARN Protéine PROTEOMIQUE Métabolite METABOLOMIQUE 24
Préparation d'adn pour microarrays cdna dans E.coli culture préparation de plasmide ADN génomique PCR purification oligonucléotide synthétisé (50-70bp) stockage -20 C 25
Impression de microarrays ADN en solution Lames de microscope modifiées chimiquement 26
Robot d'impression 27
DNA microarray 28
Marquage et hybridation Echantillon contrôle Echantillon test Cy3-dCTP Extraction d'arn Transcription inverse Cy5-dCTP cdna simple brin marqué microarray Hybridation 12-16 hr (64 C) lavages Scan de fluorescence canal Cy3 + canal Cy5 analyse d'image image recomposée 29
Nucléotides fluorescents Cy3-dCTP Cy5-dCTP dctp dctp 30
Eucaryotes RNA ou mrna Préparation de cdna AAAAAAAAAAA TTTTTTT(18-21) Transcriptase inverse Cy3-dCTP (ou Cy5-dCTP) OligodT C C AAAAAAAAAAA TTTTTTT(18-21) RNA hexamers Procaryotes Transcriptase inverse Cy3-dCTP (ou Cy5-dCTP) C C 31
Hybridation microarray Gène x Gène y Gène z 32
Scanner de fluorescence 33
image recomposée 34
Analyse d'image 1 2 3 4 5 6 7 8 9 10 A B C D E F G H I J Spot Cy3 Cy5 Rapport A 1 3500 4305 1.2 A 2 28000 32000 1.1 A 3 1500 14800 9.9* A 4 18089 21456 1.2 A 5 43789 44005 1.0 A 6 679 890 1.3 A 7 3560 18900 5.3* 35
Microarray d'arabidopsis contenant 12'000 gènes 36
Normalisation des signaux 65000 Signal Cy5 0 0 65000 Signal Cy3 Itérations mathématiques pour que la médiane des rapports Cy3/Cy5 soient de 1.0 37
Mesure du rapport dʼexpression R = signal Cy5*F / signal Cy3 F=facteur de normalisation Cy3 Cy5 Intensité du signal A B C Gènes 38
Fabrication de puces à oligonucléotides (10-70 nt) Synthèse chimique sur une surface de verre par photolithogravure Chips Affymetrix et Chips NimbleGen G T C G G T A C G G G T 39
Affymetrix Genechips Fabrication par photolithogravure 40
Affymetrix Genechips Wafer GeneChip 1.28 cm 12.7cm Sondes 500 000 zones de synthèse 10 6 to 10 7 oligonucleotides (25 mer) identiques dans chaque zone A T C G 41
Affymetrix chips Marquage de transcripts crna-biotin ARN Transcription inverse In vitro transcription Affymetrix chip Fragmentation Hybridization Avidin-Fluorescein A F Lavage Marquage Scan Analyse 42
Affymetrix chips Analyse du signal Séquence de référence Sondes oligonucléotides Image de fluorescence Perfect match oligos Mismatch oligos Applications: -mesure d'expression des gènes -reséquençage -analyse de SNP 43
Affymetrix chips Analyse de SNPs ou reséquençage SNP Séquence GATAACCGTAACGAATGCCATATCGGCTGGAAATT oligos ggcattgcttacggtatagccgac ggcattgcttaaggtatagccgac ggcattgcttagggtatagccgac ggcattgcttatggtatagccgac Pour le marquage d'adn génomique: fragmentation par enzymes de restrictions, ligation d'adapteurs, amplification par PCR, ajout de nucléotide biotinylé par terminal transferase SNPs 1 2 3 4 5 6 7 8 9 10 1112 1314 1516 17 oligos A C G T ex: Genome-Wide Human SNP 5.0 chips : 500'000 SNPs 44
Association entre génotype et phénotype Etude sur 14'000 patients et 3'000 contrôles Affymetrix Human 500K SNPs Wellcome Trust Case Control Consortium, Nature (2007) 447:661-678 45
Annotation expérimentale du génome (tiling arrays) Schoemaker et al. (2002) Nature 409: 922-927 46
Nimblegen "tiling array" Annotation expérimentale du génome d'arabidopsis 5 millions d'oligos 36-mer couvrant les deux brins (13 arrays) Nimblegen Affymetrix >60% des transcripts annotés sont détectés >1000 nouveaux gènes (en plus de Yamada et al.) 12'090 transcripts en antisense Stolc et al. (2005) PNAS 102, 4453-4458 47
NimbleGen oligonucleotide chip Méthode et utilisation identique à Affymetrix mais meilleur marché 48
Affymetrix: normalisation des signaux Intensité du signal 49
Analyse des données Affymetrix d'expression Intensité du signal normalisé Chips 1 Chips 2 Rapport d'expression : Signal Chips2/ Signal Chips1 Gènes 50
Comment identifier un gène différentiellement exprimé? CTL vs CTL Pas de traitement (moyenne de 6 réplicats indépendants) Rapport d'expression (Log2Cy5/Cy3) > 2 fois > -2 fois Intensité du signal 51
Comment identifier un gène différentiellement exprimé? CTL vs insecte Effet de Pieris rapae sur l'expression génétique chez Arabidopsis thaliana (moyenne de 5 réplicats indépendants) Rapport d'expression(log2 Cy5/Cy3) Pieris rapae Intensité du signal 52
Analyse statistique du changement d'expression Effet de Pieris rapae sur l'expression génétique chez Arabidopsis thaliana Répression > 2 fois Induction > 2 fois P<0.05 Rapport d'expression Comment identifier un gène induit ou réprimé? 1. Seuil arbitraire (signal 2 fois plus grand dans la condition 1 que dans la condition 2) 2. Analyse statistique sur plusieurs réplicats (>3): test student t H 0 µi=0 Si µi différent de 0, le gène est induit avec P<0.05 53
Corrections pour tests multiples Errreur de Type I: un gène est déclaré différentiellement exprimé alors que ce n'est pas le cas -correction de Bonferroni: valeur p divisée par le nombre de tests -> trop conservateur -FDR (false discovery rate): proportion de faux positifs parmi les gènes différentiellement exprimés -Correction Benjamini Hochberg -q value Storey Tibshirani Cui and Churchil (2003) Genome Biology 4:210 54
Comparaison de deux expériences Plantes d'arabidopsis attaquées par des chenilles de Pieris rapae Rapport 1: WT + insecte/ WT contrôle Rapport 2: coi1-1 + insecte / coi1-1 contrôle Test t µ1= µ2 et rapport > ou < 1 Gènes induits par l'insecte dans le type sauvage (WT) et dans le mutant (coi1-1) Gènes induits par l'insecte seulement dans le type sauvage Gènes induits par l'insecte seulement dans le mutant Gènes pas induits 55
Comparaison de plusieurs expériences Hierarchical clustering Expériences Gènes Rapport d'expression 56
Comportement d'un groupe de répresseurs d'arabidopsis http://www.genevestigator.com 57
patients gènes Cancer du sein Tumeurs impossibles à différencier par analyses classiques 58
Le microarray comme outil diagnostique Van't Veer et al. (2002) Nature 415:530-535 59
Analyse de correspondance Toutes les mesures d'expression (tous les gènes) d'une expérience sont comparées à celles d'autres expériences 60
Analyse de promoteurs 61
Analyse de promoteurs: un exemple Nouvel élément contrôlant l'induction par la blessure chez Arabidopsis CGGGTT Motif RSRE (Rapid Stress Response Element) trouvé dans le promoteur de gènes induits rapidement par la blessure Walley et al. (2007) PLOS Genetics 10:e172 62
ChIP-chip Quels sont les gènes contrôlés par un facteur de transcription Facteur de transcription promoteur Fixation Sonication GENE X et tous les autres gènes cibles Glucose --> Galactose anticorps Immunoprécipitation Récupération et marquage d'adn lié au facteur de transcription Cy5 Cy3 Contrôle: ADN génomique marqué Ren et al. (2000) Science 290:2306 Microarray contenant des régions intergéniques 63
ChIP-seq Quels sont les gènes contrôlés par un facteur de transcription Facteur de transcription promoteur GENE X promoteur GENE Y promoteur GENE Z Fixation Sonication anticorps Immunoprécipitation Elimination du facteur de transcription Séquençage à haut débit (454, Illumina) GENE X 64
Analyse de changements d'expression au cours de l'évolution Evolution expérimentale (250 générations) Levures dans un milieu pauvre en glucose Analyse globale de l'expression génétique (tous les gènes: 6124) Résultats 3% de changement d'expression Utilisation optimale du glucose pour la production d'atp -diminution de la fermentation -augmentation de la respirationn Discussion L'identité des mutations n'est pas connue et ne peut être mesurée: on mesure le résultat et pas la cause Ferea et al. (1999) PNAS 96:9721-9726 65
L'avenir -séquençage à haut débit sans amplification d'adn ni marquage -séquençage et assemblage de génomes inconnus grace à des séquences plus longues -analyses d'expression des génomes par séquençage à haut débit -beaucoup plus de génomique pour les organismes non-modèles 66
Résumé (Re)séquençage: - shotgun (Sanger) Génome inconnu - Illumina/454 Génome connu Analyse des variations - Affymetrix SNP Facteur de transcription ADN Recherche de promoteurs: - microarrays - séquençage Illumina/454 Identification de mutations - séquençage Illumina/454 ARN non codants AAA AAA ARN codants Annotation du transcriptome - Affymetrix tiling array Analyse de l'expression - Affymetrix - microarrays Analyse de l'expression - séquençage Illumina/454 67
Questions d'examen Session de printemps 2006 A. Vous avez à disposition 12 puces Affymetrix qui contiennent chacune des sondes pour tous les gènes humains. Décrivez le design expérimental qui vous permette d identifier avec une certaine fiabilité statistique tous les gènes qui sont induits dans les premiers stades d un type de tumeur de la peau causé par un fort rayonnement UV. B. Quel outil diagnostique développez-vous par la suite pour analyser une population de personnes à risque? Session de mars 2007 Les racines de luzerne (Medicago truncatula) forment des nodules avec les bactéries du genre Rhizobium, dont le génome est complètement séquencé. Pour Medicago, il y a une collection de cdnas disponible. A. Décrivez les expériences qui permettent d'identifier quels sont les gènes qui sont exprimés lors de la symbiose, tant chez la luzerne que chez Rhizobium. B. Comment savoir si des gènes de défenses de la plante sont réprimés lors de la symbiose? Session de janvier 2008 Vous découvrez un nouvel ecotype d'arabidopsis thaliana qui est très résistant aux chenilles de la piéride du chou. A. Quelle méthode est appropriée pour séquencer rapidement le génome de ce nouvel écotype? Comment procède-t-on? B. Décrivez une expérience pour savoir si la résistance aux insectes de cet écotype est due à une plus grande expression de gènes de défense? Session de janvier 2009 Vous obtenez la séquence du génome de 10 souris récoltées en Suisse qui manifestent des signes d'obésité. Après analyse bioinformatique, vous découvrez 2 millions de mutations ponctuelles dans ces génomes. Certains SNPs modifient la séquence de 1500 protéines. A. Quelle méthode vous permet de savoir si il y a une association entre l'obésité et les 2 mio de SNPs chez les souris d'europe? B. Décrivez une expérience pour savoir l'expression des gènes codant pour les 1500 protéines modifiées est corrélée à la prise de poids des souris. 68