Obtention de données génétiques à grande échelle Stéphanie FERREIRA Ph.D. Campus de l Institut Pasteur de Lille 1, rue du Professeur Calmette 59000 LILLE Tel : 03 20 87 71 53 Fax : 03 20 87 72 64 contact@genoscreen.fr
Prestations de services en génomique Séquençage d ADN Génotypage Bioinformatique R&D Campus de l Institut Pasteur de Lille 1, rue du Professeur Calmette 59000 LILLE Tel : 03 20 87 71 53 Fax : 03 20 87 72 64 contact@genoscreen.fr
Qui sommes-nous? Née à Lille en 2001, Genoscreen développe et réalise des activités innovantes de services en génomique afin d apporter des solutions aux besoins des laboratoires en sciences de Nos missions: la vie. Services technologiques de pointe sur tout type de génome (humain, animal, végétal et micro-organismes) Activités de recherche en collaboration avec des équipes académiques sur la génétique de la maladie d Alzheimer, sur le typage moléculaire microbien, et plus récemment encore sur la biodiversité. Une équipe de 22 collaborateurs (docteurs, ingénieurs, techniciens et consultants scientifiques seniors) en interaction avec de nombreuses équipes de recherche.
Rayonnement international 30% de l activité de services réalisés à l export Clientèle internationale Congrès scientifiques 200 laboratoires clients répartis dans 30 pays: France, Allemagne, Espagne, USA, Singapour, Maroc, Madagascar, Arabie Saoudite
Organisation Plate-forme technologique à haut et ultra haut débit Pôle services aux laboratoires Séquençage de gènes, génomes, métagénomes et transcriptomes Génotypage et recherche de marqueurs génétiques Bio-informatique Prestations à façon Pôle R & D Recherche fondamentale et appliquée, menée en collaboration avec des équipes académiques, sur la génétique de la maladie d Alzheimer, le typage moléculaire microbien et la biodiversité
Marchés et applications Santé Humaine Agriculture & agroalimentai re Environneme nt & Biodiversité ADN Pharmacologi e& Biotechnologi es HUMAIN
Qu est-ce que l ADN? Molécule de l HEREDITE, Support de l information génétique Contient sous forme codée toutes informations relatives à la vie d une organisme vivant (Animal, végétal, bactérien, viral ) Fonction: Développement et fonctionnement d un organisme Evolution: modifications de l ADN dans le temps (mutations, recombinaisons etc )
Où trouve-t-on l ADN? Présent dans toutes les cellules vivantes Sous forme de chromosome
Sous quelle forme? ADN = hélice Structure en hélice de l ADN a été découverte par Watson et Crick en 1953
De quoi l ADN est-il constitué? L'ADN est composé de quatre bases chimiques (A, T, C et G) qui se répètent des millions de fois à travers le génome. Le génome humain compte 3,2 milliards de paires de bases. Correspondrait à 2000 volumes de 500 pages chacun
Tous pareils? L ADN, organisé en gènes, et constitué de 4 éléments moléculaires appelées bases A, T, C et G est commun à tous les êtres vivants. La diversité des organismes découle uniquement d innombrables et différentes combinaisons de ces quatre éléments de base.
Tous pareils? En surface, les humains semblent très différents mais d un point de vue génétique, deux personnes diffèrent tout au plus de 0.01%. Ces différences consiste en la substitution d une base A, T, C, ou G à une autre au hasard du génome et sont appelées des SNP Single Nucleotide polymorphism. L analyse de ces SNP au sein de populations d individus représentative d une espèce et de leur(s) conséquence(s) dans le fonctionnement physiologique représente une grande partie de la science génomique.
Tous pareils? L analyse de ces mutations/snp au sein de populations d individus représentative d une espèce et de leur(s) conséquence(s) dans le fonctionnement physiologique représente une grande partie de la science génomique. LIEN ENTRE CES MODIFICATIONS ET PATHOLOGIES
Technologies? Génome Humain: 3 Milliards de base A,T,C,G Comment analyser une telle quantité d information? Quelles technologies? Quels outils? Technologie de séquençage: Analyse de la suite séquentielle des bases A,C,T,G Outils: Séquenceurs de masse 2nde Génération
Séquenceurs 2nd génération GsFlx (Roche diagnostics) SOLID 4HQ (Applied Biosystems) HiSeq (Illumina)
Leurs capacités Nombre de bases 0,5Gb 200Gb 300Gb Temps (Génome) Mois 8 jours 10 jours Prix >100 000$ 10 000$ 3 000$ Projet Génome humain: Débuté en 1991, terminé en 2004 20 partenaires dans le monde, 3$ Billions.
Principe (HiSeq) Préparation de l échantillon
Principe (HiSeq) Liaison des fragments à une surface
Principe (HiSeq) Formation de ponts
Principe (HiSeq) Synthèse de copies
Principe (HiSeq) Séparation des copies
Principe (HiSeq) Amplification Création de clusters
Principe (HiSeq) Séquençage
Principe (HiSeq) Première base lue
Principe (HiSeq) Deuxième base lue
Principe (HiSeq) Image deuxième base lue
Principe (HiSeq) Enchainement des cycles
Principe (HiSeq) Gestion informatique des données Alignement des séquences
Besoins analytiques Génération de fichiers de données de l ordre des TB HiSeq lui-même équipé de 4 disques durs de 1 TB INFORMATIQUE: Développements d outils informatiques adaptés Parallélisation des analyses BIO-INFORMATIQUE: Développements d outils spécifiques à l interface de la biologie et de l informatique STATISTICIENS/MATHEMATICIENS/EPIDEMIOLOGISTES Développements d outils d interprétations de ces données de séquençage Intégration de ces données avec d autres (cliniques, phénotypiques, épidémiologiques etc.)
Que faire de ces données? ACCUMULER DES DONNEES FONDAMENTALES Séquencer ne veut pas dire décrypter IDENTIFIER DES MODIFICATIONS LIEES A DES PATHOLOGIES Nécessité d études cliniques/épidémiologiques de grande échelle
Que faire de ces données? AVENIR: MEDECINE PERSONNALISEE Sociétés américaines proposent déjà des analyses des modifications génétiques humaines et leur interprétation DeCODEme ou 23AndMe (1000$ (1M de SNPs) ou 400$ (500,000 SNPs)) Interprétations génétiques tendancieuses & Quel apport pour l individu dans sa prise en charge? Quelle confidentialité par rapport à ces données? Quelle éthique autour de la réalisation de ces analyses? LILLE, INSTITUT DE MEDECINE PERSONNALISEE
Quel futur technologique? SEQUENCEURS TROISIEME GENERATION HELICOS tsms ( Single Molecule Sequencing) 1 BillionBases/ jour PacBioRS (SMRT)>1000pb, Run de 30 minutes IonTorrent (SemiConductor sequencing) PAS D ETAPE D AMPLIFICATION
Genoscreen - Campus Institut Pasteur de Lille 1 rue du Professeur Calmette 59000 LILLE Téléphone: +33 (0)3 20 87 71 53 Fax: +33 (0)3 20 87 72 64 Email: contact@genoscreen.com www.genoscreen.com