Transformée de Burrows-Wheeler et mapping de données RNA-seq



Documents pareils
Big data et sciences du Vivant L'exemple du séquençage haut débit

Bases de données des mutations

Le Langage SQL version Oracle

Optimisations des SGBDR. Étude de cas : MySQL

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Bases de données documentaires et distribuées Cours NFE04

Cours Base de données relationnelles. M. Boughanem, IUP STRI

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

MABioVis. Bio-informatique et la

FONDS DE L AVENIR DE LA SANB INC. RÈGLEMENT ADMINISTRATIF RÉGISSANT LES POLITIQUES DE

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

données en connaissance et en actions?

Modèle de calcul des paramètres économiques

Cylindre interrupteur

Introduc)on à Ensembl/ Biomart : Par)e pra)que

1 Introduction au codage

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data

Les archives de l entreprise à l ère du numérique. Présentée par: HAMMA Mustapha

Techniques de stockage. Techniques de stockage, P. Rigaux p.1/43

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

Chap17 - CORRECTİON DES EXERCİCES

Réplication adaptative sur les réseaux P2P

Corrigé du baccalauréat S Pondichéry 12 avril 2007

i7 0 Guide de référence rapide Français Document number: Date:

Gènes Diffusion - EPIC 2010

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite.

Département de l ARIEGE

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Recherche dans un tableau

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Régler les paramètres de mesure en choisissant un intervalle de mesure 10µs et 200 mesures.

Introduction à l approche bootstrap

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Enquête sur les investissements dans l industrie

Notion de base de données

TURBOS WARRANTS CERTIFICATS. Les Turbos Produits à effet de levier avec barrière désactivante. Produits non garantis en capital.

Identification de nouveaux membres dans des familles d'interleukines

CREDITS BANCAIRES TPE DE MOINS DE EUROS

IFT3245. Simulation et modèles

Formation des enseignants. Le tensiomètre. Objet technique modélisable issu de l environnement des élèves

Le langage SQL pour Oracle - partie 1 : SQL comme LDD

Page 2 Routes départementales - département de LA CREUSE - Elaboration des cartes de bruit stratégiques

Le test s'est déroulé en trois étapes successives

Excel 2007 Utilisation Avancée

Les techniques de multiplexage

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

INTRODUCTION. Cadre d évaluation de la qualité des données (CEQD) (juillet 2003)

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

ÉVALUATION FORMATIVE. On considère le circuit électrique RC représenté ci-dessous où R et C sont des constantes strictement positives.

Errata et mises à jour

CHAPITRE 3 LA SYNTHESE DES PROTEINES

JEU BOURSIER Séance d introduction à la plateforme de trading SaxoWebTrader. - Pour débutants -

Etude comparative de différents motifs utilisés pour le lancé de rayon

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

SQL Parser XML Xquery : Approche de détection des injections SQL

L AFIM Aquitaine et A2C vous invitent à participer à la conférence et visite : LA MAINTENANCE, LA PERFORMANCE ET L'INNOVATION AU COURRIER

Analyse des données de séquençage massif par des méthodes phylogénétiques

Cours Bases de données 2ème année IUT

Contribution à la conception par la simulation en électronique de puissance : application à l onduleur basse tension

SSIS Implémenter un flux

4. Résultats et discussion

Comme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:

Côté cours. Enseigner avec un PGI - Specibike pour OpenERP V7 CRM Compta GRH Workflow

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Journal officiel de l'union européenne

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Table des matières. 10 Gimp et le Web. Option de traitement d'images Mémento pour la séance N o Création d'animation

Excel 2007 Niveau 3 Page 1

L ORDINATEUR. Les composants. La carte mère. Le processeur. Fréquence

LES SYSTÈMES DE FICHIERS

Christophe SANNIER

Evaluation de la Dissémination du Niger. d amélioration des soins obstétricaux et

5 ème Chapitre 4 Triangles

Gestion obligataire passive

Tester Windows 8 sans l'installer avec Virtualbox

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Introduction à ElasticSearch

Ordonnancement. N: nains de jardin. X: peinture extérieure. E: électricité T: toit. M: murs. F: fondations CHAPTER 1

Les aides moyennes publiques en faveur du logement social pour l acquisition amélioration (AA) 1

Définitions. Numéro à préciser. (Durée : )

TRACER LE GRAPHE D'UNE FONCTION

INFO 2 : Traitement des images

Sécuristation du Cloud

q u estions * Nombre de personnes visées par le dispositif

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Perl Orienté Objet BioPerl There is more than one way to do it

TP SIN Traitement d image

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

S informer sur. Les obligations

Format de l avis d efficience

Transcription:

Transformée de Burrows-Wheeler et mapping de données RNA-seq MAPPI, journée indexation 6 juin 2011

Introduction Indexation But : Recherche rapide d'une information dans de grands volumes de données Indexation de k-mers Indexation de tout le texte 1

Introduction Indexation But : Recherche rapide d'une information dans de grands volumes de données Indexation de k-mers Indexation de tout le texte Transformée de Burrows-Wheeler Compression de données (1994) Indexation de textes (2000) 1

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2

Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2

Transformée de Burrows-Wheeler Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 TBW(T ) = A 0 A 1 G 2 G 3 G 4 A 5 $ 6 C 7 A 8 C 9 Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2

Fonction LF F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 3

Fonction LF F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 3

Fonction LF F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $ 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $A 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $A 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AA 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AA 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAG 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAG 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAGC 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAGC 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAGCA 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAGCA 3

F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAGCA 3

FM-index Introduit par Ferragina et Manzini (2000) ; 4

FM-index Introduit par Ferragina et Manzini (2000) ; structure d'indexation compressée basée sur la transformée de Burrows-Wheeler ; 4

FM-index Introduit par Ferragina et Manzini (2000) ; structure d'indexation compressée basée sur la transformée de Burrows-Wheeler ; utilise : la transformée de Burrows-Wheeler (lettres) ; un échantillon de la table des suxes (positions). 4

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = A 0 G 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = A 0 G 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = A 0 G 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = A 0 GA 1 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = A 0 GA 1 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Zéro G Trois G 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = A 0 GA 1 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L Zéro G Trois G $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Trois A Un A 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L Trois A Un A $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Il y a une seule occurrence de AGA dans T. 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L 9 8 7 4 2 5 0 6 3 1 $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Il y a une seule occurrence de AGA dans T. 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L 9 8 7 4 2 5 0 6 3 1 $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Il y a une seule occurrence de AGA dans T. 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L 9 8 7 4 2 5 0 6 3 1 $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Il y a une seule occurrence de AGA dans T. 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L 9 8 7 4 2 5 0 6 3 1 $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Il y a une seule occurrence de AGA dans T. 5

Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L 9 8 7 4 2 5 0 6 3 1 $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Il y a une seule occurrence de AGA dans T. 5

En pratique... Génome humain Un FM-index sur le génome humain fait 2 Go Recherche d'un motif de longueur 20 : 0,03 ms 6

En pratique... Génome humain Un FM-index sur le génome humain fait 2 Go Recherche d'un motif de longueur 20 : 0,03 ms Chromosome 1 de la souris Table des suxes : 955 Mo 0,07 ms par motif de longueur 20 FM-index : 120 Mo 2 ms par motif de longueur 20 6

Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G 7

Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ 7

Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G F C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ L $ C G A G A G C G A A A $ C G A G A G C G A A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A G C G A G A G C G A A $ G A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A 7

Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G F C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ L $ C G A G A G C G A A A $ C G A G A G C G A A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A G C G A G A G C G A A $ G A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A 7

Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G F C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ L $ C G A G A G C G A A A $ C G A G A G C G A A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A G C G A G A G C G A A $ G A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A 7

Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G F C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ L $ C G A G A G C G A A A $ C G A G A G C G A A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A G C G A G A G C G A A $ G A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A 7

Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G F C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ L $ C G A G A G C G A A A $ C G A G A G C G A A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A G C G A G A G C G A A $ G A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A 7

Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G F C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ L $ C G A G A G C G A A A $ C G A G A G C G A A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A G C G A G A G C G A A $ G A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A 7

8 Mapping de reads RNA-seq

Diérence avec le génomique Les reads proviennent d'arn mature Les reads peuvent contenir des jonctions exon-exon plus dicile de localiser ces reads sur un génome 9

Solutions de mapping Tables de hachage GSNAP (Wu et Nacu, 2010) substitutions, gaps, jonctions GASSST (Rizk et Lavenier, 2010) subsitutions et gaps 10

Solutions de mapping Tables de hachage GSNAP (Wu et Nacu, 2010) substitutions, gaps, jonctions GASSST (Rizk et Lavenier, 2010) subsitutions et gaps Transformée de Burrows-Wheeler Bowtie (Langmead et al., 2009) Trois substitutions max. BWA (Li et Durbin, 2009) Substitutions et gaps courts SOAP2 (Li et al., 2009) Substitutions et gaps courts 10

Ce que font ces outils En entrée Ensemble de reads Génome indexé 11

Ce que font ces outils En entrée Ensemble de reads Génome indexé En sortie Information sur les reads Localisation Unique Multiple Pas de localisation 11

CRAC Collaboration Nicolas Philippe et Éric Rivals (LIRMM, Montpellier) Thérèse Commes (IGH, Montpellier) 12

CRAC Collaboration Nicolas Philippe et Éric Rivals (LIRMM, Montpellier) Thérèse Commes (IGH, Montpellier) But 12

CRAC Collaboration Nicolas Philippe et Éric Rivals (LIRMM, Montpellier) Thérèse Commes (IGH, Montpellier) But Détection de diérentes causes : indels SNP jonctions chimères erreurs 12

Méthodologie Idée Un facteur de longueur k donné ( 22 pour le génome humain) peut être localisé de manière exacte sans ambiguïté (Philippe et al, 2009). 13

Méthodologie Idée Un facteur de longueur k donné ( 22 pour le génome humain) peut être localisé de manière exacte sans ambiguïté (Philippe et al, 2009). Ces facteurs sont utiles pour : étudier la variation du nombre d'occurrences des k-mers au sein du reads étudier la localisation de ces k-mers par rapport au génome 13

Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14

Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14

Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14

Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14

Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14

Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14

Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14

Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14

Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14

Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14

Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14

Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14

Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14

Distinguer erreur et mutation SNP erreur Read k k-mer localisé? Analyse de la variation du nombre d'occurrences de chaque k-mer 28 reads partagent le k-mer commençant ici SNP Erreur # de k-mers 30 1 14

Distinguer erreur et mutation SNP erreur Read k k-mer localisé? Analyse de la variation du nombre d'occurrences de chaque k-mer 28 reads partagent le k-mer commençant ici SNP Erreur # de k-mers 30 1 14

Distinguer erreur et mutation SNP erreur Read k k-mer localisé? Analyse de la variation du nombre d'occurrences de chaque k-mer 28 reads partagent le k-mer commençant ici SNP Erreur 14 # de k-mers 30 1 30 1 Il n'y a qu'un seul read avec ce k-mer erronné

Distinguer erreur et mutation SNP erreur Read k k-mer localisé? Analyse de la variation du nombre d'occurrences de chaque k-mer 28 reads partagent le k-mer commençant ici SNP Erreur 14 # de k-mers 30 1 30 1 Il n'y a qu'un seul read avec ce k-mer erronné

Substitution, indel ou épissage? Substitution l = L Read Génome 15

Substitution, indel ou épissage? Substitution l = L Read Génome 15

Substitution, indel ou épissage? Substitution l = L l Read Génome 15

Substitution, indel ou épissage? Substitution l = L l Read Génome 15

Substitution, indel ou épissage? Substitution l = L l Read Génome 15

Substitution, indel ou épissage? Substitution l = L l Read L Génome 15

Substitution, indel ou épissage? Substitution l = L l Read L Génome 15

Substitution, indel ou épissage? Délétion l < L l L Read Genome 15

Substitution, indel ou épissage? Insertion l > L l Read L Genome 15

Substitution, indel ou épissage? Substitution Délétion Insertion l Read l Read l Read L Genome L Genome L Genome Épissage 15

Substitution, indel ou épissage? Substitution Délétion Insertion l Read l Read l Read L Genome L Genome L Genome Épissage 15

Substitution, indel ou épissage? Substitution Délétion Insertion l Read l Read l Read L Genome L Genome L Genome Épissage Chimère 15

Quelques complications de la vie réelle... k Read Genome 16

Quelques complications de la vie réelle... k Read Genome 16

Quelques complications de la vie réelle... k Read Genome 16

Quelques complications de la vie réelle... k Read Genome 16

Quelques complications de la vie réelle... k Read Genome 16

Quelques complications de la vie réelle... k Read Genome 16

Quelques complications de la vie réelle... k Read Genome 16

Quelques complications de la vie réelle... k Read Genome Exemple chr 1,, 220 800 314 Read chr 1,, 32 796 487 chr 1,, 32 797 073 16

Quelques complications de la vie réelle... k Read Genome Exemple chr 1,, 220 800 314 Read chr 1,, 32 796 487 chr 1,, 32 797 073 16

Quelques complications de la vie réelle... k Read Genome Exemple chr 1,, 220 800 314 Read chr 1,, 32 796 487 chr 1,, 32 797 073 16

Quelques complications de la vie réelle... k Read Genome Exemple chr 1,, 220 800 314 Read chr 1,, 32 796 487 chr 1,, 32 797 073 16

Quelques complications de la vie réelle... k Read Genome Exemple chr 1,, 220 800 314 Read chr 1,, 32 796 487 chr 1,, 32 797 073 16

CRAC, en résumé Méthode Distinction erreur/ mutation : analyse du nombre de k-mers communs Détection de substitutions, insertions, délétions, jonctions : analyse de la distance dans le read et le génome. 17

CRAC, en résumé Méthode Distinction erreur/ mutation : analyse du nombre de k-mers communs Détection de substitutions, insertions, délétions, jonctions : analyse de la distance dans le read et le génome. Structures sous-jacentes Reads indexés par les Gk arrays (Philippe et al., 2011) Génome indexé par un FM-index (Ferragina et Manzini, 2000) 17

CRAC, en résumé Méthode Distinction erreur/ mutation : analyse du nombre de k-mers communs Détection de substitutions, insertions, délétions, jonctions : analyse de la distance dans le read et le génome. Structures sous-jacentes Reads indexés par les Gk arrays (Philippe et al., 2011) Génome indexé par un FM-index (Ferragina et Manzini, 2000) Limites Nécessite des données susamment couvertes Pas de détection si les substitutions ou indels sont au début ou à la n du read 17

CRAC, en résumé Méthode Distinction erreur/ mutation : analyse du nombre de k-mers communs Détection de substitutions, insertions, délétions, jonctions : analyse de la distance dans le read et le génome. Structures sous-jacentes Reads indexés par les Gk arrays (Philippe et al., 2011) Génome indexé par un FM-index (Ferragina et Manzini, 2000) Limites Nécessite des données susamment couvertes Pas de détection si les substitutions ou indels sont au début ou à la n du read particulièrement adapté aux données futures 17

Évaluation des performances Simulation d'une expérience RNA-seq Simulation d'un génome d'individu Simulation de RNA-Seq : Flux Simulator (http://flux.sammeth.net/simulator.html) 18

Évaluation des performances Simulation d'une expérience RNA-seq Simulation d'un génome d'individu Simulation de RNA-Seq : Flux Simulator (http://flux.sammeth.net/simulator.html) Données simulées 45 millions de reads de longueur 75 et 200 issus de D. melanogaster H. sapiens 18

Évaluation des performances Simulation d'une expérience RNA-seq Simulation d'un génome d'individu Simulation de RNA-Seq : Flux Simulator (http://flux.sammeth.net/simulator.html) Données simulées 45 millions de reads de longueur 75 et 200 issus de D. melanogaster H. sapiens Comparaison Localisation Bowtie, BWA, GASSST, GSNAP, SOAP2 Jonctions GSNAP, MapSplice, TopHat 18

Résultats 100 Pourcentage de reads localisés sans ambiguïté (42M de reads de longueur 75) 80 % 60 40 Faux positif Vrai positif 20 0 Bowtie BWA CRAC GASSSTGSNAP SOAP2 19

Résultats 100 Pourcentage de reads localisés sans ambiguïté (48M de reads de longueur 200) 80 % 60 40 Faux positif Vrai positif 20 0 Bowtie BWASW CRAC GASSSTGSNAP 19

Résultats Reads simulés sur l'humain (75 bp) Pourcentage de séquences localisées de manière unique, par catégorie 100 Pourcentage localisé 80 60 40 20 0 SNP Insertions Délétions Épissage Chimères Erreurs Catégorie Bowtie BWA CRAC GASSST GSNAP SOAP2 19

Résultats Reads simulés sur l'humain (200 bp) Pourcentage de séquences localisées de manière unique, par catégorie 100 Pourcentage localisé 80 60 40 20 0 SNP Insertions Délétions Épissage Chimères Erreurs Catégorie BWASW CRAC GASSST GSNAP 19

Résultats Prédictions : pourcentage des causes retrouvées 100 Humain, 48 millions de reads de 200 bp 61 387 5 562 5 610 145 916 1 829 38 840 045 Total Pourcentage trouvé 80 60 40 20 0 Faux positif Vrai positif SNP Insertions Délétions Épissage Chimères Erreurs Catégorie 19

Résultats Prédictions : pourcentage des causes retrouvées 100 Humain, 48 millions de reads de 200 bp 61 387 5 562 5 610 145 916 1 829 38 840 045 Total Pourcentage trouvé 80 60 40 20 0 Faux positif Vrai positif SNP Insertions Délétions Épissage Chimères Erreurs MapSplice Catégorie GSNAP MapSplice 19

Conclusion Mapping RNA-seq Localisation Plus de reads localisés par rapport aux outils existants Classement Faible taux de faux positifs 60 à 70 % des causes sont retrouvées mutations non trouvées en raison d'une faible couverture jonctions : sensibilité comparable à MapSplice, meilleure spécicité encore meilleur prochainement! 20

Gk arrays Query 1 Query 2 10 3 Time (in µs) 10 2 10 1 Time (in µs) 10 2 10 1 5 10 15 20 25 Number of reads (in millions) Query 3 5 10 15 20 25 Number of reads (in millions) Query 4 10 1 Time (in µs) 10 1 Time (in µs) 10 0 10 0 5 10 15 20 25 Number of reads (in millions) 10 1 5 10 15 20 25 Number of reads (in millions) 21

Gk arrays Maximal memory consumption Memory (GB) 40 20 0 5 10 15 20 25 Number of reads (in millions) 21