Plateforme de Recherche de Mutations

Documents pareils
Big data et sciences du Vivant L'exemple du séquençage haut débit

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Gènes Diffusion - EPIC 2010

Cellectis présente ses résultats financiers pour le premier trimestre 2015

Les bases de données transcriptionnelles en ligne

Montréal, 24 mars David Levine Président et chef de la direction DL Strategic Consulting. DL Consulting Strategies in Healthcare

Biomarqueurs en Cancérologie

MYRIAD. l ADN isolé n est à présent plus brevetable!

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

CATALOGUE DES PRESTATIONS DE LA

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Introduction à la Génomique Fonctionnelle

Génétique et génomique Pierre Martin

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Détection et prise en charge de la résistance aux antirétroviraux

Plus courts chemins, programmation dynamique

Identification de nouveaux membres dans des familles d'interleukines

Big data : vers une nouvelle science des risques?

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Evaluation générale de la qualité des données par âge et sexe

Bases moléculaires des mutations Marc Jeanpierre

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Analyse des données de séquençage massif par des méthodes phylogénétiques

Sorties définitives de l emploi. Quels liens avec la santé, le parcours professionnel et les conditions de travail? Nicolas de Riccardis

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Généralités. Aperçu. Introduction. Précision. Instruction de montage. Lubrification. Conception. Produits. Guides à brides FNS. Guides standards GNS

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Contrôle de l'expression génétique :

Soutenance de stage Laboratoire des Signaux et Systèmes

Les renseignements suivants sont destinés uniquement aux personnes qui ont reçu un diagnostic de cancer

Études épidémiologiques analytiques et biais

SERVICES DE SEQUENÇAGE

Quelles sont les principales formules utiles pour l étude de cas de vente?

Limitations of the Playstation 3 for High Performance Cluster Computing

Créer un référentiel client grâce à Talend MDM

Centreur fin cylindrique pour la fabrication de moules. Le développement

Statistiques Canadiennes sur le Cancer, et HMR sur le poumon

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Les mesures à l'inclinomètre

Séquencer une application

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Validation probabiliste d un Système de Prévision d Ensemble

Bases de données et outils bioinformatiques utiles en génétique

CORRELATION RADIO-ANATOMIQUE DANS LE CARCINOME HEPATOCELLULAIRE TRAITE PAR TRANSPLANTATION HEPATIQUE : IMPACT SUR LA RECIDIVE

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Format de l avis d efficience

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

SEQUENÇAGE LI-COR DNA 4200

METS. Nouvelle offre de formation IPLV-UCO ANGERS

MABioVis. Bio-informatique et la

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Transgene accorde une option de licence exclusive pour le développement et la commercialisation de son produit d immunothérapie TG4010

Les plateformes de génétique

Intérêts et limites des mannequins numériques pour l évaluation des efforts et des postures

VI. Tests non paramétriques sur un échantillon

LES GAZ D ECHAPPEMENT DES MOTEURS DIESEL CANCEROGENES

Coface et les soutiens publics à l Exportation

Big Data et la santé

Méthodologie Quotes Quality Metrics (QQM)

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

Le réseau sans fil "Wi - Fi" (Wireless Fidelity)

Critères de Choix d une Echelle de Qualité De Vie. Etudes cliniques dans l autisme. Introduction

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Modèles et simulations informatiques des problèmes de coopération entre agents

Differential Synchronization

Modèle de calcul des paramètres économiques

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

La comptabilité énergétique

Travaux pratiques avec RapidMiner

Les tests de génétique moléculaire pour l accès aux thérapies ciblées en France en 2011

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Evolution des risques sur les crédits à l habitat

Mesure agnostique de la qualité des images.

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Analyse dialectométrique des parlers berbères de Kabylie

INF6304 Interfaces Intelligentes

Leçon 5. Systèmes de gestion à recomplétement périodique et stock de sécurité

Le passage d un ordre de bourse, sa comptabilisation et la gestion des conflits d intérêts

TERMES DE REFERENCES I. PREAMBULE

Appel à Projets. Constitution de bases clinicobiologiques multicentriques à visée nationale en cancérologie. Action 3.1 et 23.2

Actualités s cancérologiques : pneumologie

Arbres binaires de décision

Dépistage du cancer colorectal :

Cancer bronchique primitif: données épidémiologiques récentes

LIVRE BLANC Pratiques recommandées pour l utilisation de Diskeeper sur les réseaux SAN (Storage Area Networks)

RNV3P Recherche de pathologies émergentes

Point sur la stratégie

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Les débats sur l évolution des

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Projet Optiperf : les ressources du calcul parallèle à destination des architectes navals

Transcription:

Plateforme de Recherche de Mutations Jean-Marc Aury contact: pfm@genoscope.cns.fr 29 janvier 2009

Introduction Présentation des données produites par le GSFLX : type, qualité, Méthodes de détection de mutations Le projet cancer de la vessie

Pyroséquençage 454 / Roche Genome Sequence FLX 1 fragment -> 1 bille 1 bille -> 1 lecture

Evolution des séquençeurs GS 454 / Roche Genome Sequence FLX 2006 Gs20 20Mb / run 100pb / lecture 2007 GsFLX 100Mb / run 250pb / lecture 2009 Titanium 500Mb / run 500pb / lecture Version actuelle (GS FLX) : Majorité des lectures à 250bp Environ 500.000 lectures / run et 100Mbp / run Durée du run : 8h Taux d erreurs non négligeable dans les homopolymères Assemblage de qualité à environ 20X Pas de biais de clonage

Données produites 454 / Roche Genome Sequence FLX Un run sur Acinetobacter (3,5Mbp) : 522.876 lectures taille cumulée de 96Mb, soit 26,7 équivalents génome (26,7X)

Données produites 454 / Roche Genome Sequence FLX Alignement des lectures au niveau nucléotidique 521.193 lectures mappées (soit 99,68%) 93.553.967 nt alignés contenant 800.295 erreurs (soit 8,6.10-3 erreurs) Sur les 800.295 erreurs : 17% délétions, 62% insertions, 21% mismatches (12% de Ns). Sur les 348.796 lectures mappées à 100%, 109.637 sont sans erreurs (31%)

Données produites 454 / Roche Genome Sequence FLX

Méthodes de détection de variations Neighbourhood Quality Standard (NQS) Altshuler, D. et al. An SNP map of the human genome generated by reduced representation shotgun sequencing. Nature 407, 513-516 (2000) Méthode basée sur les scores qualités attribués à chaque base des lectures. Le NQS a pour objectif de diminuer l'impact du taux d'erreurs du 'base calling' sur l'identification des sites polymorphes Q = 10 => p(base incorrecte) = 0,1 Q = 20 => p(base incorrecte) = 0,01 Une base est marquée NQS si : son score qualité Q 20 les 5 bases de chaque coté ont chacune un score Q 15 Q 20 ATCGTGGCTGCATTAGGCT Q 15

Méthodes de détection de variations Altshuler, D. et al. An SNP map of the human genome generated by reduced representation shotgun sequencing. Nature 407, 513-516 (2000)

Méthodes de détection de variations Avec les nouvelles technologies de séquençage (NTS) les lectures sont plus courtes Le principal problème devient l alignement des lectures (mauvais placement sur le génome de référence) D où la nécessité d utiliser des algorithmes qui tiennent compte des spécificité des données issues des NTS. Algorithmes existants : gsmapper (Roche/454) SSAHA_pileup (Sanger), version adaptée de SSAHA_snp GigaBayes (Boston College), version adaptée de PolyBayes

Projet cancer de la vessie Objectif du projet : recherche de nouveaux gènes suppresseurs de tumeurs impliqués dans les cancers de la vessie par l identification de mutations. Collaboration avec F. Radvanyi (Institut Curie) Sélection des gènes : gènes présents dans les régions récurrentes de perte : régions génomiques fréquemment perdues dans ces les cancers de la vessie. gènes connus par la base de données Cancer Gene Census comme ayant des mutations impliqués dans la progression tumorale sélection de 1.251 gènes, 13.315 exons, taille cumulée d environ 4 Mb 8 échantillons : 4 échantillons tumoraux et 4 échantillons normaux appariés

Projet cancer de la vessie prévision : 8 échantillons avec 1 run GSFLX par individu (soit ~ 100Mb) 13.315 régions ciblées : 3,97Mb (moyenne de 300pb) Après passage chez NimbleGen : 13.944 régions ; 5,6Mb (moyenne de 400pb) Régions séléctionnées Régions capturées

Projet cancer de la vessie Alignement des lectures provenant des 8 échantillons sur le génome humain Calcul de la sensibilité et de la spécificité de la capture

Projet cancer de la vessie Alignement des lectures provenant des 8 échantillons sur le génome humain

Projet cancer de la vessie Alignement des lectures provenant des 8 échantillons sur le génome humain B C D E F G H I # lectures 740.642 964.866 602.719 601.841 683.096 42.947 480.811 59.167 # lectures alignées 649.017 (88%) 822.999 (85%) 564.580 (94%) 531.657 (88%) 607.093 (89%) 32.755 (76%) 431.060 (90%) 53.022 (90%) # lectures chevauchant des régions cibles # lectures incluses dans des régions cibles # régions cibles touchées # régions cibles entièrement couvertes 450.267 (69%) 220.646 (49%) 12.275 (92%) 10.932 (82%) 525.778 (64%) 260.185 (49%) 12.434 (93%) 11.405 (86%) 353.295 (63%) 175.029 (50%) 12.796 (96%) 11.091 (83%) 348.492 (66%) 160.027 (46%) 12.325 (93%) 10.856 (82%) 269.594 (44%) 119.974 (45%)) 10.574 (79%) 8610 (65%) 977 (3%) 424 (43%) 783 (6%) 142 (1%) 297.016 (69%) 131.609 (44%) 12.261 (92%) 10.862 (82%) 4.422 (8%) 1.729 (39%) 2.699 (20%) 622 (5%)

Projet cancer de la vessie B C D E F H Couverture initiale 42,9 53,3 35,1 35,1 41,1 29,6 Couverture moyenne 13,9 15,8 12,7 11,5 10,5 10,1 Couverture minimale 0 0 0 0 0 0 Couverture maximale 80,7 102,2 102,1 113,0 111,0 86,0 # régions couvertes à 10X 7.026 (53%) 7.985 (60%) 7.123 (54%) 5.886 (44%) 4.097 (31%) 5.502 (41%) Avec >30X initialement, on ne couvre qu environ 50% des régions avec une couverture supérieure à 10X

Projet cancer de la vessie 100 90 80 70 60 50 40 % lectures chevauchant des régions cibles % régions cibles touchées % régions cibles couvertes > 10X 30 20 10 0 0,54 0,75 2,58 4,12 5,19 8,81 10,1 11,5 13,9 15,8

Projet cancer de la vessie Les régions faiblement couvertes sont souvent communes à différents échantillons => biais de capture

Projet cancer de la vessie Variations détectées All_diff : différences reportée par au moins deux lectures indépendantes chr1 1673394+ ATAAATGTAAACATTGAATGGCAGACGACTCCCTTCCCCTTGAAATCTTAA 1673452 *** FJIN7VJ01DFLX9 42+ ATAAATGTAAACATTGAATGGCAGACAACTCCCTTCCCCTTGAAATCTTAA 100 FJIN7VJ01ESS91 30+ ATAAATGTAAACATTGAATGGCAGACAACTCCCTTCCCCTTGAAATCTTAA 88 *** HC_diff : différence de haute qualité : reportée par au moins 3 lectures, avec au moins une lecture alignée en forward et une en reverse chr1 38111352+ CACCCGAGTTGAGCTTTGTAGCTGTCATCTTATTTACGAAGAGCTCCAA 38111411 *** FJIN7VJ01AIOPN 224+ CACCCGAGTTGAGCTTTGTAGCTGTCGTCTTATTTACG 265 FJIN7VJ01C8XXY 166+ CACCCGAGTTGAGCTTTGTAGCTGTCGTCTTATTTACGAAGAGCTCCAA 225 FGXZNYP01B97AX 104- CACCCGAGTTGAGCTTTGTAGCTGTCGTCTTATTTACGAAGAGCTCCAA 45 FIZ3LQF01DFXB9 112- CACCCGAGTTGAGCTTTGTAGCTGTCGTCTTATTTACGAAGAGCTCCAA 53 Echantillon B C D E F H moyenne All_diff 19.567 23.012 15.915 15.793 13.710 13.731 16.955 HC_Diff 4.523 5.325 4.490 3.826 3.460 3.706 4.222

Projet cancer de la vessie localisation des variations (exon, intron, intergénique) et comparaison entre échantillon Sélection : variations de haute qualité présentes dans les échantillons tumoraux absentes des échantillons normaux (apparié et autres) absentes des base de données de variations connues localisées dans les exons ou à proximité (50pb) Exemple sur un échantillon tumoral Couverture HC diff dans exons (1) # variations (1) + Absence des autres échantillons (2) # variations (2) + Inconnus # variations # gènes 2 3.092 406 360 244 3 3.092 406 360 244 4 2.721 218 183 132 5 2.439 141 120 96 6 2.202 110 93 77 10 1.457 53 45 40

Projet cancer de la vessie Initialement environ 20.000 variations de haute qualité Une 50aine de variations à valider par re-séquençage après classification et sélection Les critères de sélection importants : qualité de la variation (profondeur de séquence) localisation de la variation comparaison entre échantillon et avec les variations connues

Conclusions Couverture de 10X environ nécessaire pour une détection optimale des mutations Le nombre de lectures à séquencer dépend des régions ciblées (nombre, taille) et de la qualité du run (taille moyenne des lectures, qualités) Détection des mutations basée sur la qualité des nucléotides et la longueur des lectures (unicité du placement) Insertions/délétions plus difficiles à détecter avec GSFLX à cause du taux d erreurs dans les homopolymères Nécessité de classifier les variations pour réduire l espace de recherche et de valider chaque variation

contact: pfm@genoscope.cns.fr