Identifier des éléments biologiques dans les reads sans assemblage ni génome de référence. Pierre Peterlongo, Nadia Pisanti and Marie-France Sagot



Documents pareils
DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

MABioVis. Bio-informatique et la

Big data et sciences du Vivant L'exemple du séquençage haut débit

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Conception de Médicament

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Contrôle de l'expression génétique :

Gènes Diffusion - EPIC 2010

données en connaissance et en actions?

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Compte-rendu re union Campus AAR 3 mars 2015

SERVICES DE SEQUENÇAGE

Introduc)on à Ensembl/ Biomart : Par)e pra)que

FONCTION DE DEMANDE : REVENU ET PRIX

Big data : vers une nouvelle science des risques?

CHAPITRE 3 LA SYNTHESE DES PROTEINES

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language

National Research Council Canada

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Ebauche Rapport finale

Introduction aux bases de données: application en biologie

1 les caractères des êtres humains.

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

L évolution des modes de communication, comment adapter les enquêtes en population générale? L expérience de l enquête KABP VIH/sida 2010

Programmation parallèle et distribuée

Gestion des références bibliographiques. Comment simplifier la gestion des références bibliographiques?

S initier aux probabilités simples «Question de chance!»

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Un centre de simulation : pourquoi et comment? Conférence Management, CHU Toulouse Anne-Claude Allin 9 avril 2014

PLAN DE COURS. GPA750 Ordonnancement des systèmes de production aéronautique

ADAPT: un modèle de transcodage des nombres. Une application des systèmes de production au développement

Séquençage et Assemblage. de Génomes. François Denizot Emmanuel Talla LCB-IBSM CNRS

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

COMPAREZ AVANT DE VOUS ENGAGER

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Nouveautés Ignition v7.7

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur

TUTORIAL Microsoft Project 2010 Fonctionalités de base

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

: l IDRIS a vingt ans!

Bases de données et outils bioinformatiques utiles en génétique

Iyad Alshabani SysCom - CReSTIC Université de Reims 17/02/2011 1

GAMME GESTION TEMPS & PRÉSENCE ZX-HP LA MAIN MISE SUR LE TEMPS

Analyse des données de séquençage massif par des méthodes phylogénétiques

Les apports de l informatique. Aux autres disciplines

Initiation à LabView : Les exemples d applications :

Gestion réactive des opérations de maintien et d actualisation réglementaire et technologique des systèmes complexes.

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Mendeley, pour gérer sa bibliographie et la partager. Patricia Volland-Nail

Mise en place d'un gestionnaire de données léger, pluridisciplinaire et national pour les données scientifiques

Innovations Majeures de la Version 4

Analyse d échantillons alimentaires pour la présence d organismes génétiquement modifiés

Conditions de Maintenance et Service Après-Vente

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Manuel d utilisation du web mail Zimbra 7.1

Etude comparative de différents motifs utilisés pour le lancé de rayon

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Lois de probabilité. Anita Burgun

Rétablissement d un réseau cellulaire après un désastre

Assemblage adaptatif de génomes et de méta-génomes par passage de messages

CATALOGUE DES PRESTATIONS DE LA

T le. Se documenter tout au long de l année. séquence pédagogique L1.2 L1.4 L2.2 L e trimestre. Nom :... Prénom :... Date :...

Intelligence Artificielle Planification

Evaluation de la conformité du Système de validation Vaisala Veriteq vlog à la norme 21 CFR Part 11

Sélection du contrôleur

Cours d algorithmique pour la classe de 2nde

Pourquoi construire son PC?

TP3 Intégration de pratiques agiles. 1. User Stories (1) Scénario d intégration agile. En direct-live du château

Les datas = le fuel du 21ième sicècle

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Installation de Premium-RH

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

Bio-Rad Laboratories CONTRÔLE DE QUALITÉ. Le logiciel de Bio-Rad pour une gestion experte du contrôle de qualité

Francis BISSON ( ) Kenny CÔTÉ ( ) Pierre-Luc ROGER ( ) IFT702 Planification en intelligence artificielle

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

Protéomique Séance 1 Introduction aux données de protéomique et aux outils de recherche

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Big Data et la santé

Structure quantique cohérente et incohérente de l eau liquide

EMME : un environnement de gestion des métadonnées expérimentales

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

#BigData Dossier de presse Mai 2014

Transcription:

Identifier des éléments biologiques dans les reads sans assemblage ni génome de référence Pierre Peterlongo, Nadia Pisanti and Marie-France Sagot

Que faire des reads? Premiers reflexes Avec un génome de référence fiable : Read mapping Sans génome de référence : Assemblage de novo Si on dispose de génome(s) peu fiables : Mapping + assemblage de novo

Assemblage: Le problème Million/milliards de pièces Sans l image Endroit, envers??? Erreurs de séquençage : Les pièces ne s assemblent pas parfaitement Couverture : Certaines parties du puzzles absentes

Graphe des reads chevauchants (overlap graph, layout graph). TGTCTATGCTAC TATGCTACTTAC GCAATTGATACT. TTGCTAGGCAAT GCAATTGCAGAT..

Graphe de de-bruijn Reads -> k-mers 1 Nœud = 1 k-mer une arrête = 1 (k-1)-mer Nicolaas Govert de Bruijn CTAAC TAACG... TGTCT GTCTA TCTAA CTAAT TAATA..

Graphe de de-bruijn / assemblage 1. Nettoyage des reads 2. Construction du graphe 3. Nettoyage du graphe 4. Recherche de chemins CTAAC TAACG... TGTCT GTCTA TCTAA CTAAT TAATA.. TGTCTAA CTAACG CTAATA

Assembly algorithms for next-generation sequencing data, Miller, Genomics, 95(6), 2010 Glouton SSAKE SHARCGS VCAKE Overlap Newbler (454) CABOG (454) Edena (Illumina) Shorty (454+Illu)

Assembly algorithms for next-generation sequencing data, Miller, Genomics, 95(6), 2010 De-Bruijn Euler (substitutions, k, réduction graphe, paires) Velvet (réduction graphe: topologie, couverture, paires) ABySS (Parallèle: 3,5 Milliards de reads Illumina) AllPaths (qualités des reads, larges génomes) SOAPnovo (Overlap+DB, large génomes) Symbiose : Assembleur paires l

Gestion des erreurs de séquençage Nettoyage statistique Gestion des répétitions Divers heuristiques de résolutions

Gestion des erreurs de séquençage Nettoyage statistique Gestion des répétitions Divers heuristiques de résolutions Peut-on éviter d assembler??? CTAAC TAACG... TGTCT GTCTA TCTAA CTAAT TAATA..

Extraction d informations dans les reads bruts: SNP : kissnp Transcrits alternatifs / Splicing graphes Eléments répétés Recherche d homologues

Yeux rouges ATCTTAGC Yeux bleus ATCTGAGC

ATCTTAGC ATCTGAGC ATTACAAC ATTAGAAC Assembly free comparative genomics of short-read sequence data discovers the needles in the haystack. Molecular Ecology, 2010. Calling SNPs without a reference genome. BMC Bioinformatics, 11:130, 2010.

Cas le plus simple: SNP Répétitions, couverture variable Erreurs de séquençage ATCT TCTT CTTA TTAG TAGC AGCT Séquence: ATCTTAGC

Cas le plus simple: SNP Répétitions, couverture variable Erreurs de séquençage TCTT CTTA TTAG TAGC ATCT AGCT TCTG CTGA TGAG GAGC Séquences: ATCTTAGCT ATCTGAGCT

Cas le plus simple, avec comptage: SNP Répétitions, couverture variable Erreurs de séquençage 20 ATCT 20 20 20 TCTT CTTA TTAG TAGC TCTG CTGA TGAG GAGC 20 0 0 0 0 0 0 0 0 20 20 20 20 20 nombre de kmers nombre de kmers 20 AGCT 20 Séquences: ATCTTAGCT ATCTGAGCT

+ répétitions, couverture variable SNP Répétitions, couverture variable Erreurs de séquençage 20 ATCT 40 20 20 TCTT CTTA TTAG TAGC TCTG CTGA TGAG GAGC 20 20 10 10 10 10 0 0 0 0 30 30 30 30 nombre de kmers nombre de kmers 20 AGCT 40 Séquences: ATCTTAGCT ATCTGAGCT

+ erreurs de séquençage SNP Répétitions, couverture variable Erreurs de séquençage 21 ATCT 39 18 23 TCTT CTTA TTAG TAGC TCTG CTGA TGAG GAGC 19 21 11 10 8 10 2 1 0 2 31 27 30 29 nombre de kmers nombre de kmers 22 AGCT 41 Séquences: ATCTTAGCT ATCTGAGCT δ

Sur données réelles et simulées 2 paramètres k et δ Qualité des données couverture erreurs répétitions

MC58 sequence (22 Mb) avec k «assez gros ( 20)» : aucun faux positifs jeux de paramètres robuste (ici δ = 20)

MC58 sequence MC58 sequence shuffle Peu sensible aux répétitions

Avec erreurs (Illumina) Sans erreurs Peu sensible aux erreurs de séquençage type illumina (substitutions)

Genome evolution and adaptation in a long-term experiment with Escherichia coli, Nature 2009 Etude originale : Comparaisons de générations 0 vs. 20K: 28 SNPs trouvés par mapping KisSnp sur 0 vs. 20K reads: qqminutes, qqgb Ram 27 des 28 SNPs 42 add. structures de SNP, non détectées précédemment

Extraction d informations dans les reads bruts: SNP : kissnp Expression / Transcrits alternatifs / Splicing graphes Eléments répétés Recherche d homologues

Plugin Cytoscape: Visualisation graphe de-bruijn Détection des gènes exprimés

Détection automatique évenements de splicing

Bons points: Pas d assemblage Pas de référence Pas de nettoyage Rapide et léger SNP: Uniquement 2 paramètres Peu sensible erreurs/repet. Expression: premiers resultats Futur SNPs intra individu SNPs n individus + phylogénie Avancées Alcovna ARN Homologies

infos et téléchargement: http://alcovna.genouest.org/

Experiment data ACGTCGTAGTGCTAGTCGTACGT SNP simulation ACGTCGTAGTGGTAGTCGTACGT Sequencing simulation with MetaSim ACGTCG TCGTAG AGTCGT GTACGT AGTGCT TAGTGC GCTAGT ACGTCG TCGTAG GTAGTG AGTGGT TAGTGG GTACGT AGTCGT GGTAGT Cutting reads into overlapping k-mers ACG CGT TCG TAG CTA GTA GTG AGT TGC GCT ACG CGT TCG TAG GTA GTA GTG AGT TGG GGT ALCOVNA SNP number and sequence associated GTGCTAG GTGGTAG