Biopathologie et Cancer: identification de marqueurs et cibles thérapeutiques moléculaires - Puces à ADN et Analyse du Transcriptome Pr François Bertucci
Définitions Biopathologie = Étude des altérations moléculaires au sein d un échantillon (solide ou liquide) En pleine évolution depuis plus de 30 ans (avancées scientifiques, technologiques) Années 95: début analyses à haut débit; actuellement en plein essor +++ Marqueur moléculaire = Molécule dont la présence (ou l absence) est associée au risque d apparition d un cancer (m. de prédisposition), à sa présence (m. diagnostique), à son évolution clinique (m. pronostique et/ou prédictif de réponse thérapeutique), à sa rechute (m. de surveillance) Spécifique, sensible, dosable, reproductible Cible thérapeutique moléculaire = Molécule cible des «thérapies moléculaires ciblées» Molécule identifiée, rôle prouvé dans la maladie, avec corrélation à l évolution clinique, molécule mesurable (test diagnostique), «droguable» (enzyme, surface cellulaire par ex.)
Pourquoi typer les cancers? Fréquence et gravité: ~240.000 cas/an en France (~1 cas toutes les 2 mn) ~150.000 décès/an (~1 décès toutes les 4 mn) Problèmes cliniques majeurs A RESOUDRE: dépistage, traitement préventif insuffisants diagnostic tardif traitements inefficaces et/ou toxiques m. de prédisposition m. diagnostique - hétérogénéité évolutive des tumeurs m. pronostique m. prédictif de réponse - anticancéreux non spécifiques cible thérapeutique Typage des tumeurs
Le typage des tumeurs: intérêts ts Fondamental: Oncogenèse Nouvelles cibles thérapeutiques Clinique: Dépistage Diagnostic Pronostic et prédiction réponse au traitement: TRT à la carte Surveillance
Pourquoi au niveau moléculaire? (1) Car le typage histo-clinique est insuffisant face à l hétérogénéité des tumeurs Exemple des facteurs pronostiques et/ou prédictifs de réponse: cliniques: âge, sexe, stade d extension histologiques: ganglions, taille, grade, récepteurs hormonaux Classification des tumeurs Progrès, mais insuffisants: bon pronostic: % d échecs mauvais pronostic: % d échecs Sous-classes non identifiées
Pourquoi au niveau moléculaire? (2) Pour mieux comprendre la complexité des tumeurs Cancer = accumulation progressive d un grand nombre d altérations moléculaires dont les effets se combinent pour aboutir à l apparition de la tumeur et son évolution vers un phénotype de plus en plus agressif et résistant aux traitements Indépendance vis-à-vis des facteurs de croissance Echappement à l apoptose Insensibilité aux signaux anti-prolifératifs + instabilité génétique (Hanahan D. et Weinberg R.A., Cell, 2000) Angiogenèse Potentiel réplicatif illimité Phénotype invasif et métastasiant et identifier de nouvelles cibles thérapeutiques spécifiques
Niveaux multiples de régulationr de l expression l géniqueg Eucaryotes +++ Transcription ADN 60.10 12 cellules ~30.000 gènes Transcrit primaire: ARNm précurseur Maturation (cap en 5, queue polya en 3, épissage.. avec nbreux transcrits alternatifs) noyau ARNm mature ~120.000 ARNm différents gènes cytoplasme Transport ARNm Traduction Activité (modifications post-traductionnelles ) Protéines Fonction Dégradation du messager ARNm inactif ~150.000 protéines différentes (+ de 500.000 protéines )
Le typage moléculaire classique (1) Tissus, cellules (sains ou pathologiques) Broyage et lyse cellulaire Étalement Extraction ADN, ARN, protéines - ADN: séquençage, caryotype, FISH, Southern blot - ARN: Northern blot, RT-PCR - Protéines: Western blot Analyse morphologique microscope ET moléculaire - ADN: FISH - ARN: ISH - Protéines: IHC Recherche de marqueurs: corrélation avec le paramètre clinique d intérêt (survie, réponse TRT ) d abord dans des études rétrospectives, puis prospectives avant éventuelle application clinique
Le typage moléculaire classique (2) ADN: anomalies de structure ou de nombre des chromosomes ou des gènes Génomique Structurelle ARN et Protéines: anomalies d expression Génomique Fonctionnelle Approches classiques, «gène-à-gène», «protéine-à-protéine», «tissu-à-tissu» analysant UN SEUL paramètre moléculaire sélectionné par échantillon et par expérience Développement des outils d analyse: très nombreuses études Progrès compréhension oncogenèse Retombées cliniques majeures
Quelques retombées es cliniques ADN Amplification du gène HER2 dans les cancers du sein Séquençage du gène BRCA1 dans les cancers du sein héréditaires ARN Recherche de transcrits de fusion dans les leucémies aiguës Protéines Expression des récepteurs hormonaux RE/RP et de la protéine HER2 dans les cancers du sein
mais relativement limitées MAIS, progrès insuffisants: Oncogenèse: compréhension limitée / complexité Applications cliniques limitées Hétérogénéité, complexité Biais méthodologiques Typage Moléculaire à Grande Echelle
Une nouvelle dimension: le typage moléculaire à grande échelle 100 aines à 10.000 ers paramètres simultanément ment ADN CGH-array ARN Puce à ADN Protéines 2D, SM chromato., SM Portrait moléculaire (diversité - cibles) Tissus Tissue-microarray
grâce aux retombées es de Projet Génome: clones ADNc (clones IMAGE, ) séquençage de banques de clones d ADNc (EST 5 et EST 3 ), Insert ADNc dans un clone bases de données (dbest, UNIGENE, ) 5 ADNc Progrès technologiques: robotique (traitement des clones, spottage, ) bio-informatique (alignement des séquences, sélection des clones, analyse des données ) analyse d images (acquisition, quantification, ) EST EST 3
Intérêts ts potentiels - Analyse très grand nombre de paramètres moléculaires sans sélection a priori - Plus adapté à la complexité moléculaire des tumeurs une combinaison de molécules fait mieux que chaque molécule prise isolément. - Analyse d un très grand nombre de tumeurs (TMA) Fondamental: oncogenèse réseaux géniques Pharmaceutique: nouvelles cibles thérapeutiques mécanisme d action des traitements Clinique: dépistage diagnostic pronostic et prédiction de la réponse au traitement: TRT à la carte surveillance
L ère post-génome GENOME inventaire pièces détachées: anatomie élémt. répétés chromosomes gènes POST-GENOME annotation fonctionnelle, relationnelle: physiologie Transcriptome Génomique Fonctionnelle Protéome Interactome Métabolome
Testicules 8 8 sem. 1. Transcriptome: : puces à ADN = ensemble des transcrits d un échantillon Northern, RT-PCR..: 1 gène / expérience kb 9,49 7,46 4,40 Thymus 8 sem. 2,37 1,35 0,24 Nouvelles méthodes: milliers de gènes / expérience, voire tous les gènes d un organisme
Diverses méthodes m d analysed à grande échelle Même but : niveau d expression (ARN) de milliers de gènes simultanément 1/ Basées sur la PCR RT-PCR d ARNm de différents tissus avec des amorces arbitraires et comparaison des ADNc sur gel ex: Differential Display 2/ Basées sur le séquençage Clonage ADNc, quantification, séquençage ADNc avec comparaison avec bases de données ex: Séquençage de banques ADNc, SAGE (Serial Analysis of Gene Expression) 3/ Basées sur l hybridation: PUCES A ADN Hybridation d un jeu d ADNc ordonnés sur un support solide (cdna Array) avec une sonde complexe préparée à partir de l ARN du tissu d intérêt et quantification des signaux d hybridation
Puces à ADN = DNA microarray 50 à 40.000 Gènes cibles (clones ADNc ou oligos (3 ARNm)) Tumeur (cellules, tissus) dépôt ou synthèse ARN extraction RT (oligodt) et marquage Puce: support solide (cm 2 ) cibles ordonnées Sonde complexe en solution ADNc HYBRIDATION acquisition quantification, Signal = f (Conc. Sde, Qté cible, marquage, lavage, expo ) normalisation PROFIL D EXPRESSION GENIQUE Niveau d expression = k x Signal bio-informatique Analyse et visualisation
Caractéristiques de l hybridation sonde complexe - Sonde complexe : tous les mrnas exprimés dans l échantillon, rétrotranscrits; 3 de la séquence (oligo dt priming) - Cibles : 3 de la séquence des cdnas (ARN de référence des gènes) - Hybridation en excès de cible : signal d un gène proportionnel à : - la concentration de la séquence correspondante dans la sonde ++ - la durée de l hybridation - la quantité de cible - Remarques : -Faible couverture de la cible (1%) : signaux faibles, besoin d un système de détection sensible et de l absence de signal non spécifique (contrôles) -Northern, Southern : hybridation en excès de sonde et durée telle que toute la cible soit saturée le signal ne dépend que de la quantité de cible
Il existe plusieurs approches Clones d ADNc Oligonucléotides Cibles et production Dépôt Synthèse in situ ou dépôt GMS Arrayer GMS Arrayer PCR, (bactéries) PCR Support Membrane Nylon Lame de verre Lame de verre Marquage colorimétrie radioactivité fluorescence Acquisition Scanner à plat Radio-imageur Microscope confocal
Clones d ADNcd En amont des puces I.M.A.G.E. banques ADNc: clones dbest séquençage banque d EST : séquences acgatgctagcta gctgatcgatcga tcgtagc clustering UniGene clusters d EST : gènes Puces PCR et spottage sélection de clones sélection de gènes ou non selon question posée 1 clone ADNc = 1 gène
Images d hybridation Microarray Nylon radioactivité P33 Macroarray Nylon radioactivité P33 8 x 12 cm2-1.200 cibles simple marquage - µg ARN total Coût moindre, ré-utilisable++ 7.2 x 1.8 cm2-9.300 cibles simple marquage - < µg ARN total Coût moindre, ré-utilisable Microarray Nylon colorimétrie 1,8 x 2,7 cm2-9.600 cibles double marquage - µg ARNm Coût moindre, densité+++ Microarray Verre fluorescence 1,8 x 1,8 cm2-6.400 cibles double marquage - µg ARNm Coût +++, densité+++
Oligonucléotides otides GenBank GenBank dbest banque de séquences gènes acgatgctagcta gctgatcgatcga tcgtagc sélection de 20 à 60mer spécifiques 11 à 1 Oligo / gène synthèse puis dépôts synthèse in situ robots spotteurs imprimantes jet d encre 11 oligos = 1 gène pour Affymetrix photolithographie (Affymetrix) + imprimantes jet d encre (Agilent) +
Sonde A µg ARN messager fluorochrome Sonde B TTTTT TTTTT TTTTT TTTTT TTTTT Oligonucléotides Lame de silicium 12.8 x 12.8 mm Densité 64.000 oligos, soit 1.600 gènes (1 gène = 20+20 oligos) NB: double marquage possible Puces à oligos Fluorescence Coût +++, densité (Wodicka et al, Nat Biotechnol, 1996, 15, 1359-67)
1,3 cm 39.000 gènes
Analyse des résultats: r deux approches 200 gènes candidats cdna macroarrays nylon radioactivité 34 cancers du sein localisés et 1 SN Deux types d analyse: approche différentielle et approche profils d expression
Approche différentielle («screening») Tumeur RE+ Tumeur RE- 100 Reproductibilité 100 Différentiels Hybridation 2 2 10 1 0.1 0.01 0.001 0.001 0.1 10 1000 Hybridation 1 Tumeur RE- 10 1 0.1 0.01 0.001 0.001 0.01 0.1 1 10 Tumeur RE+ 100 Liste de gènes différentiels
Approche différentielle Cancer du sein Clone ID Gene / Protein identity Gene symbol T / NB 207378 MYB Related Protein B MYBL2 (a ) 129757 GATA-binding protein 3 GATA3 17.8 235947 Stromelysin 3 STMY3 * 15.9 154343 Granzyme H GZMH 9.5 120649 T-Lymphocyte surface CD2 antigen CD2 7.5 153275 Cellular Retinoic Acid Binding Protein 2 CRABP2 7.2 109677 CREB Binding Protein CREBBP 5.1 172152 EGFR-binding protein GRB2 GRB2 5.0 Clone ID Gene / Protein identity Gene symbol 10N+ / N- 147016 ERBB2 Receptor Protein-Tyrosine Kinase ERBB2 5.0 179197 Protein Phosphatase PP2A, 55 kd Subunit PP2A BR gamma 5.0 231424 Glutathione S Transferase Pi GSTP1 2.7 111461 SOX4 Protein SOX4 2.7 195022 Interleukin 2 Receptor Beta chain IL2RB 2.4 220451 Zinc Finger protein 144 ZNF144 1.9 125413 Mucin 1 MUC1 1.8 290007 CD44 antigen, epithelial form CD44 1.7 Clone ID Gene / Protein identity Gene symbol ER+ / ER- 129757 GATA-binding protein 3 GATA3 28.6 356763 Granzyme A GZMA 5.7 248613 MYB proto-oncogene MYB 3.4 211999 KIAA1075 protein KIAA1075* 3.3 235947 Stromelysin 3 STMY3 3.1 229839 Macrophage Stimulating 1 MST1 * 2.8 153275 Cellular Retinoic Acid Binding Protein 2 CRABP2 2.7 301950 X-box Binding Protein 1 XBP1 2.7 * * * Avantages: -nombre d échantillons -analyse «simple» (replicates, Bonferroni) Inconvénient: information limitée (Bertucci et al, Hum Mol Genet, 2000, 9, 2981-91)
L expression de GATA3 est corrélée à celle de RE a 10 b NB AT17 ER- AT18 ER- NT40 ER+ NT41 ER+ AT19 ER+ NT43 ER- AT20 ER- NT44 ER- NT45 ER+ 1 4.0 kb GATA3 0.1 0.01 NB 1.8 kb β ACTIN 0.001 ER- ER+ Macroarray - p = 0.001 (Mann-Witney test) Northern blot, 79 tumeurs - p < 0.0001 (Mann-Witney test)
Approche «profils d expressiond» Signature moléculaire permettant de caractériser - soit de nouvelles classes d échantillons : approches non supervisées - soit des classes phénotypiques connues et prédiction d appartenance: supervisées BIOINFORMATIQUE: analyse - visualisation (100 T x 40.000 ARNm = 4.000.000 pts) Non supervisée «Découverte de classes» Supervisée «Prédiction de classes» Validation? % classification correcte Recherche de corrélations: - classes de T et facteurs histo-cliniques? - classes de gènes et fonction, chromosome? % classification correcte?
Exemple d analyse non supervisée Clustering hiérarchique et visualisation 1/ Colorisation Echantillons 2/ Mesure des corrélations entre gènes et entre échantillons Cluster I Gènes Cluster II 3/ Classification des gènes et des échantillons selon leur similarité Avant clustering Après clustering
Cancer du sein T de mauvais pronostic avec CT adjuvante 2 groupes d évolution différente 23 gènes discriminants D V D D D V V V V V V V
Profils d expression Patterns: -type cellulaire (microdissection virtuelle) -fonction Avantages Information supplémentaire:gènes, échantillons Inconvénients: -nombre d échantillons -analyse statistique (Ross et al, Nat Genet, 2000, 24, 227-35)
Applications en Cancérologie ARN lignées cellulaires, cellules, tissus; sain ou tumoral; avant, pendant, après TRT; modèles expérimentaux (transfection, RNAi) Fondamental Oncogenèse (gènes impliqués dans la progression, la résistance ) Caractérisation des gènes co-exprimés: annotation fonctionnelle, étude de la régulation (promoteurs ), réseaux géniques (cinétiques d activation ou d inhibition ) Clinique Nouveaux marqueurs diagnostiques et pronostiques Nouvelles classes diagnostiques et pronostiques Pharmaceutique Identification de nouvelles cibles thérapeutiques Effets du gène cible sur le transcriptome Mécanisme d action des drogues (validation, cibles secondaires) Effets secondaires des drogues Identification de populations homogènes (essais thérapeutiques)
Classifications pronostiques basées sur les profils d expression
Lignées cellulaires 13 lignées 1.200 gènes (Khan et al, Cancer Res, 1998, 58, 5009-13)
Lymphomes non hodgkiniens N = 40 18.000 clones 76% à 5 ans 16% à 5 ans (Alizadeh et al, Nature, 2000, 403, 503-11)
Le cancer du sein: un problème non résolur Fréquence et gravité: 42.000 cas/an ( soit >1 cas/15 mn) 11.000 décès/an (soit >1décès/h) ~70% survie à 5 ans Problèmes cliniques: dépistage et traitements préventifs insuffisants diagnostics tardifs traitements non spécifiques: efficacité inconstante - toxicité loco-régionaux (chir., radioth ) générales (chimioth., hormonoth.,thérapies ciblées. ) hétérogénéité évolutive des tumeurs Typage des tumeurs
Cancer du sein : classification Formes localisées pronostique Formes localement avancées Formes inflammatoires
200 gènes 34 T localisées Non supervisée T localisées de mauvais pronostic avec CT adjuvante Sein normal Intérêt pronostique Signature 23 gènesg Cancer du sein follow-up médian 55 mois - A1: 4 métastases et décès - A2: 0 métastase et décès
1000 gènes - 55 T localisées de mauvais pronostic avec CT adjuvante standard 1. Validation de la signature 12 décès / 24 5 décès / 31 23 gènes Survie globale à 5 ans: 53% vs 87%
2. Amélioration 40 gènes (2 métagènes) discriminants - 3 classes de tumeurs équilibrées suivi médian de 5 ans Orienter vers le type de CT adjuvante Etude de validation rétrospective unicentrique en cours (200 T), puis multicentrique (PACS01: bras FEC100) Puis, Etude prospective randomisée de CT adjuvante N+ basée sur la signature
Etude Unicentrique 200 Tumeurs Supervisée: learning set 36 gènes validation set Validation 29 overexpressed genes: - ERBB2, - 6 genes located on 17q12, - 4 genes on 17q, - non-17q genes such as GATA4 8 downregulated genes: - ESR1
N=250 Validation TMA: corrélation négative ERBB2 et ER, corrélation positive ERBB2 et Ki67, GATA4 ERBB2 2+ sont séparées par la signature: FISH+ sont avec IHC 3+ FISH- sont avec IHC 0-1+
Supervisée Learning set: 78 25.000 gènes 97 T localisées N-, pt1-t2, 25.000 sans gènes CT ou HT adjuvante 97 T localisées N-, pt1-t2, sans CT ou HT adjuvante 70 gènes discriminants 2 groupes d évolution différente Evite «sur-traitement» Validation set: 19
25.000 gènes puce à oligos fluorescence 295 tumeurs consécutives pt < 5 cm, âge < 52 ans, de bon et de mauvais pronostic Validation du «prédicteur» à 70 gènes
Suivi médian 6,7 ans 70 Reporter Genes 180 Tumors with Poor-Prognosis Signature 115 Tumors with Good-Prognosis Signature
Population N- et MFS n=151 Dans la population N-, la classification obtenue à l aide des 70 gènes est plus fiable que celles obtenues à l aide des critères consensuels de St-Gallen et du NIH Critiques dont «overfitting»
Orienter ou non vers une CT adjuvante chez N- Etude de validation rétrospective multicentrique en cours (France, Suède, Angleterre, Pays-Bas) puis, Essai MINDACT (TransBIG( TransBIG) Essai prospectif randomisé testant la supériorité d un pronostic défini par la signature génique (genomic arm) par rapport au pronostic défini sur les critères histo-cliniques (clinical arm) dans le cancer du sein pn0
8.102 gènes - 78 T localement avancées avec CT néo-adjuvante Non Supervisée 500 gènes, 5 classes - biologiquement relevantes Types cellulaires d origine - cliniquement relevantes Type de CT néo-adjuvante
Validation des 500 gènes Sorlie: 115 T, 5 classes van t Veer: 97 T, 5 classes
30.721 cdna Puces MD Anderson - 42 T2-T4 avec CT néo-adjuvante n (Taxol x 12 / FAC x 4) Supervisée sur Réponse Histologique à la chimiothérapie (13 RCH et 11 non-rch) N=24 N=18 Validation 74 cdna
1 0-1 ~8.000 gènes - 81 Tumeurs 44 NIBC 37 IBC 5 10 15 20 25 Supervisée sur Type IBC vs NIBC et sur 85 gènes Réponse Histologique à la CT néo-adjuvante (anthracyclines) (26 patientes: 9 RCH+ - 17 RCH-) 1 RCH 85 gènes discriminants 2 groupes IBC 0-1 RCH 70% RCH 0%
22.000 gènes - 60 T localisées, RE+, avec TAM en monothérapie en adjuvant Supervisée Rechute métastatique congelés LCM HOXB13 IL17BR Ratio HOXB13/IL17BR Ratio HOXB13/IL17BR Validation N=20, RQ-PCR
Expression de HOXB13 HOXB13 augmente la migration cellulaire HOXB13 augmente l invasion cellulaire
Bilan Puces à ADN et Pronostic du Cancer du Sein Identification au diagnostic de signatures moléculaires définissantd de nouvelles sous-classes pronostiques/prédictives dans des classes a priori homogènes au niveau histo-clinique,, mais d évolution hétérogh rogène: - maladies différentes? - à traiter différemment? Séries de moins de 100 tumeurs Validation inconstante A valider dans de plus grandes séries s de patients ++++ Nouvelles cibles / therapeutiques alternatives
Challenges avant transfert clinique Echantillons tumoraux : Tumorothèque (annotations, base de données, consentements) ARN: qualité (tissus frais congelés) et quantité Technologie : Variabilité des mesures: expérimentale (contrôles qualité) et biologique (qualité ARN, hétérogénéité cellules et tissus cancéreux); comparaison inter plate-formes, reproductibilité, standardisation+++++ Difficulté du traitement des données: normalisation, signification statistique des corrélations (robustesse validation) Autres challenges : Confrontation aux autres analyses moléculaires à grande échelle (CGH array, tissue array, protéome, ) Validation sur grandes séries rétrospectives (TMA, RQ-PCR) Futur au lit du patient (puce spécialisée, RQ-PCR, IHC?) Etudes cognitives sur cibles moléculaires potentielles de thérapie ciblée ++ Etudes coût-efficacité
Puces et Essais Thérapeutiques Des essais pour valider l intl intérêt t pronostique +++ grandes séries s rétrospectivesr essais prospectifs: 1 er niveau d application d clinique Des puces pour identifier une signature pronostique/prédictive (et autres «surrogate markers») Aide aux essais thérapeutiques définition de sous-groupes plus homogènes de patients (même me biologie) interprétation tation des résultats: r efficacité de la drogue dans un sous-groupe design dans la sélection s des patients: effectif plus réduit, r essai plus rapide
2. CGH array
CGH classique Recherche de régions chromosomiques amplifiées (oncogènes) ou délétées (gènes suppresseurs) Mais faible résolution de la cible d hybridation (5 10 Mb), identification difficile des gènes cibles.
CGH array Cibles = clones ADN = gènes ordonnés selon leur localisation chromosomique Identification à haute résolution de gènes amplifiés ou délétés (Forozan F, Trends Genet, 13, 405-9)
3. Tissue microarray : validation des marqueurs Analyses de 1.000 tumeurs simultanément section Lame de verre: ~1.000 tumeurs taille des spots: 0.6 mm écart inter-spot: 0.7 mm (Kononen K, Nat Med, 4, 844-7)
Tissue microarray HES: morphologie ARN (ISH), protéines (IHC) ADN (FISH)
Complémentarit mentarité des 2 approches DNA microarray Tissue microarray
Potentiel énorme Médecine moléculaire «à la carte» à suivre.