Transformée de Burrows-Wheeler et mapping de données RNA-seq MAPPI, journée indexation 6 juin 2011
Introduction Indexation But : Recherche rapide d'une information dans de grands volumes de données Indexation de k-mers Indexation de tout le texte 1
Introduction Indexation But : Recherche rapide d'une information dans de grands volumes de données Indexation de k-mers Indexation de tout le texte Transformée de Burrows-Wheeler Compression de données (1994) Indexation de textes (2000) 1
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2
Transformée de Burrows-Wheeler T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2
Transformée de Burrows-Wheeler Permutations circulaires C G A G A C G A A $ $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G G A A $ C G A G A C C G A A $ C G A G A A C G A A $ C G A G G A C G A A $ C G A A G A C G A A $ C G G A G A C G A A $ C T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 TBW(T ) = A 0 A 1 G 2 G 3 G 4 A 5 $ 6 C 7 A 8 C 9 Permutations triées $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 2
Fonction LF F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 3
Fonction LF F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 3
Fonction LF F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $ 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $A 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $A 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AA 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AA 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAG 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAG 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAGC 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAGC 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAGCA 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAGCA 3
F L $ 1 C G A G A C G A A 4 A 4 $ C G A G A C G A 3 A 3 A $ C G A G A C G 3 A 2 C G A A $ C G A G 2 A 1 G A C G A A $ C G 1 C 2 G A A $ C G A G A 2 C 1 G A G A C G A A $ 1 G 3 A A $ C G A G A C 2 G 2 A C G A A $ C G A 1 G 1 A G A C G A A $ C 1 Fonction LF 0 1 2 3 4 5 6 7 8 9 T = C 1G1 A1G2 A2C2 G3A3 A4$1 Propriété Les lettres identiques sont dans le même ordre dans F et dans L. Fonction LF À partir de L et F, passage d'une lettre dans T à la précédente. Récupération du texte $AAGCA 3
FM-index Introduit par Ferragina et Manzini (2000) ; 4
FM-index Introduit par Ferragina et Manzini (2000) ; structure d'indexation compressée basée sur la transformée de Burrows-Wheeler ; 4
FM-index Introduit par Ferragina et Manzini (2000) ; structure d'indexation compressée basée sur la transformée de Burrows-Wheeler ; utilise : la transformée de Burrows-Wheeler (lettres) ; un échantillon de la table des suxes (positions). 4
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = A 0 G 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = A 0 G 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = A 0 G 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = A 0 GA 1 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = A 0 GA 1 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Zéro G Trois G 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = A 0 GA 1 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L Zéro G Trois G $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Trois A Un A 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L Trois A Un A $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Il y a une seule occurrence de AGA dans T. 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L 9 8 7 4 2 5 0 6 3 1 $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Il y a une seule occurrence de AGA dans T. 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L 9 8 7 4 2 5 0 6 3 1 $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Il y a une seule occurrence de AGA dans T. 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L 9 8 7 4 2 5 0 6 3 1 $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Il y a une seule occurrence de AGA dans T. 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L 9 8 7 4 2 5 0 6 3 1 $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Il y a une seule occurrence de AGA dans T. 5
Recherche de motifs Table des suxes Trop d'espace Échantillonnage Recherchons P = AGA 0 1 A 2 dans T = C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L 9 8 7 4 2 5 0 6 3 1 $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C Il y a une seule occurrence de AGA dans T. 5
En pratique... Génome humain Un FM-index sur le génome humain fait 2 Go Recherche d'un motif de longueur 20 : 0,03 ms 6
En pratique... Génome humain Un FM-index sur le génome humain fait 2 Go Recherche d'un motif de longueur 20 : 0,03 ms Chromosome 1 de la souris Table des suxes : 955 Mo 0,07 ms par motif de longueur 20 FM-index : 120 Mo 2 ms par motif de longueur 20 6
Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G 7
Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ 7
Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G F C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ L $ C G A G A G C G A A A $ C G A G A G C G A A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A G C G A G A G C G A A $ G A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A 7
Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G F C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ L $ C G A G A G C G A A A $ C G A G A G C G A A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A G C G A G A G C G A A $ G A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A 7
Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G F C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ L $ C G A G A G C G A A A $ C G A G A G C G A A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A G C G A G A G C G A A $ G A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A 7
Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G F C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ L $ C G A G A G C G A A A $ C G A G A G C G A A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A G C G A G A G C G A A $ G A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A 7
Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G F C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ L $ C G A G A G C G A A A $ C G A G A G C G A A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A G C G A G A G C G A A $ G A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A 7
Modications dans la transformée de Burrows-Wheeler C 0 G 1 A 2 G 3 A 4 C 5 G 6 A 7 A 8 $ 9 F L $ C G A G A C G A A A $ C G A G A C G A A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G C G A A $ C G A G A C G A G A C G A A $ G A A $ C G A G A C G A C G A A $ C G A G A G A C G A A $ C G F C 0 G 1 A 2 G 3 A 4 5 6 7 8 9 10 G C GAA $ L $ C G A G A G C G A A A $ C G A G A G C G A A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A G C G A G A G C G A A $ G A A $ C G A G A G C G A G C G A A $ C G A G A G A G C G A A $ C G C G A A $ C G A G A 7
8 Mapping de reads RNA-seq
Diérence avec le génomique Les reads proviennent d'arn mature Les reads peuvent contenir des jonctions exon-exon plus dicile de localiser ces reads sur un génome 9
Solutions de mapping Tables de hachage GSNAP (Wu et Nacu, 2010) substitutions, gaps, jonctions GASSST (Rizk et Lavenier, 2010) subsitutions et gaps 10
Solutions de mapping Tables de hachage GSNAP (Wu et Nacu, 2010) substitutions, gaps, jonctions GASSST (Rizk et Lavenier, 2010) subsitutions et gaps Transformée de Burrows-Wheeler Bowtie (Langmead et al., 2009) Trois substitutions max. BWA (Li et Durbin, 2009) Substitutions et gaps courts SOAP2 (Li et al., 2009) Substitutions et gaps courts 10
Ce que font ces outils En entrée Ensemble de reads Génome indexé 11
Ce que font ces outils En entrée Ensemble de reads Génome indexé En sortie Information sur les reads Localisation Unique Multiple Pas de localisation 11
CRAC Collaboration Nicolas Philippe et Éric Rivals (LIRMM, Montpellier) Thérèse Commes (IGH, Montpellier) 12
CRAC Collaboration Nicolas Philippe et Éric Rivals (LIRMM, Montpellier) Thérèse Commes (IGH, Montpellier) But 12
CRAC Collaboration Nicolas Philippe et Éric Rivals (LIRMM, Montpellier) Thérèse Commes (IGH, Montpellier) But Détection de diérentes causes : indels SNP jonctions chimères erreurs 12
Méthodologie Idée Un facteur de longueur k donné ( 22 pour le génome humain) peut être localisé de manière exacte sans ambiguïté (Philippe et al, 2009). 13
Méthodologie Idée Un facteur de longueur k donné ( 22 pour le génome humain) peut être localisé de manière exacte sans ambiguïté (Philippe et al, 2009). Ces facteurs sont utiles pour : étudier la variation du nombre d'occurrences des k-mers au sein du reads étudier la localisation de ces k-mers par rapport au génome 13
Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14
Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14
Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14
Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14
Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14
Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14
Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14
Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14
Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14
Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14
Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14
Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14
Distinguer erreur et mutation SNP erreur Read k-mer localisé? k Analyse de la variation du nombre d'occurrences de chaque k-mer SNP Erreur 14
Distinguer erreur et mutation SNP erreur Read k k-mer localisé? Analyse de la variation du nombre d'occurrences de chaque k-mer 28 reads partagent le k-mer commençant ici SNP Erreur # de k-mers 30 1 14
Distinguer erreur et mutation SNP erreur Read k k-mer localisé? Analyse de la variation du nombre d'occurrences de chaque k-mer 28 reads partagent le k-mer commençant ici SNP Erreur # de k-mers 30 1 14
Distinguer erreur et mutation SNP erreur Read k k-mer localisé? Analyse de la variation du nombre d'occurrences de chaque k-mer 28 reads partagent le k-mer commençant ici SNP Erreur 14 # de k-mers 30 1 30 1 Il n'y a qu'un seul read avec ce k-mer erronné
Distinguer erreur et mutation SNP erreur Read k k-mer localisé? Analyse de la variation du nombre d'occurrences de chaque k-mer 28 reads partagent le k-mer commençant ici SNP Erreur 14 # de k-mers 30 1 30 1 Il n'y a qu'un seul read avec ce k-mer erronné
Substitution, indel ou épissage? Substitution l = L Read Génome 15
Substitution, indel ou épissage? Substitution l = L Read Génome 15
Substitution, indel ou épissage? Substitution l = L l Read Génome 15
Substitution, indel ou épissage? Substitution l = L l Read Génome 15
Substitution, indel ou épissage? Substitution l = L l Read Génome 15
Substitution, indel ou épissage? Substitution l = L l Read L Génome 15
Substitution, indel ou épissage? Substitution l = L l Read L Génome 15
Substitution, indel ou épissage? Délétion l < L l L Read Genome 15
Substitution, indel ou épissage? Insertion l > L l Read L Genome 15
Substitution, indel ou épissage? Substitution Délétion Insertion l Read l Read l Read L Genome L Genome L Genome Épissage 15
Substitution, indel ou épissage? Substitution Délétion Insertion l Read l Read l Read L Genome L Genome L Genome Épissage 15
Substitution, indel ou épissage? Substitution Délétion Insertion l Read l Read l Read L Genome L Genome L Genome Épissage Chimère 15
Quelques complications de la vie réelle... k Read Genome 16
Quelques complications de la vie réelle... k Read Genome 16
Quelques complications de la vie réelle... k Read Genome 16
Quelques complications de la vie réelle... k Read Genome 16
Quelques complications de la vie réelle... k Read Genome 16
Quelques complications de la vie réelle... k Read Genome 16
Quelques complications de la vie réelle... k Read Genome 16
Quelques complications de la vie réelle... k Read Genome Exemple chr 1,, 220 800 314 Read chr 1,, 32 796 487 chr 1,, 32 797 073 16
Quelques complications de la vie réelle... k Read Genome Exemple chr 1,, 220 800 314 Read chr 1,, 32 796 487 chr 1,, 32 797 073 16
Quelques complications de la vie réelle... k Read Genome Exemple chr 1,, 220 800 314 Read chr 1,, 32 796 487 chr 1,, 32 797 073 16
Quelques complications de la vie réelle... k Read Genome Exemple chr 1,, 220 800 314 Read chr 1,, 32 796 487 chr 1,, 32 797 073 16
Quelques complications de la vie réelle... k Read Genome Exemple chr 1,, 220 800 314 Read chr 1,, 32 796 487 chr 1,, 32 797 073 16
CRAC, en résumé Méthode Distinction erreur/ mutation : analyse du nombre de k-mers communs Détection de substitutions, insertions, délétions, jonctions : analyse de la distance dans le read et le génome. 17
CRAC, en résumé Méthode Distinction erreur/ mutation : analyse du nombre de k-mers communs Détection de substitutions, insertions, délétions, jonctions : analyse de la distance dans le read et le génome. Structures sous-jacentes Reads indexés par les Gk arrays (Philippe et al., 2011) Génome indexé par un FM-index (Ferragina et Manzini, 2000) 17
CRAC, en résumé Méthode Distinction erreur/ mutation : analyse du nombre de k-mers communs Détection de substitutions, insertions, délétions, jonctions : analyse de la distance dans le read et le génome. Structures sous-jacentes Reads indexés par les Gk arrays (Philippe et al., 2011) Génome indexé par un FM-index (Ferragina et Manzini, 2000) Limites Nécessite des données susamment couvertes Pas de détection si les substitutions ou indels sont au début ou à la n du read 17
CRAC, en résumé Méthode Distinction erreur/ mutation : analyse du nombre de k-mers communs Détection de substitutions, insertions, délétions, jonctions : analyse de la distance dans le read et le génome. Structures sous-jacentes Reads indexés par les Gk arrays (Philippe et al., 2011) Génome indexé par un FM-index (Ferragina et Manzini, 2000) Limites Nécessite des données susamment couvertes Pas de détection si les substitutions ou indels sont au début ou à la n du read particulièrement adapté aux données futures 17
Évaluation des performances Simulation d'une expérience RNA-seq Simulation d'un génome d'individu Simulation de RNA-Seq : Flux Simulator (http://flux.sammeth.net/simulator.html) 18
Évaluation des performances Simulation d'une expérience RNA-seq Simulation d'un génome d'individu Simulation de RNA-Seq : Flux Simulator (http://flux.sammeth.net/simulator.html) Données simulées 45 millions de reads de longueur 75 et 200 issus de D. melanogaster H. sapiens 18
Évaluation des performances Simulation d'une expérience RNA-seq Simulation d'un génome d'individu Simulation de RNA-Seq : Flux Simulator (http://flux.sammeth.net/simulator.html) Données simulées 45 millions de reads de longueur 75 et 200 issus de D. melanogaster H. sapiens Comparaison Localisation Bowtie, BWA, GASSST, GSNAP, SOAP2 Jonctions GSNAP, MapSplice, TopHat 18
Résultats 100 Pourcentage de reads localisés sans ambiguïté (42M de reads de longueur 75) 80 % 60 40 Faux positif Vrai positif 20 0 Bowtie BWA CRAC GASSSTGSNAP SOAP2 19
Résultats 100 Pourcentage de reads localisés sans ambiguïté (48M de reads de longueur 200) 80 % 60 40 Faux positif Vrai positif 20 0 Bowtie BWASW CRAC GASSSTGSNAP 19
Résultats Reads simulés sur l'humain (75 bp) Pourcentage de séquences localisées de manière unique, par catégorie 100 Pourcentage localisé 80 60 40 20 0 SNP Insertions Délétions Épissage Chimères Erreurs Catégorie Bowtie BWA CRAC GASSST GSNAP SOAP2 19
Résultats Reads simulés sur l'humain (200 bp) Pourcentage de séquences localisées de manière unique, par catégorie 100 Pourcentage localisé 80 60 40 20 0 SNP Insertions Délétions Épissage Chimères Erreurs Catégorie BWASW CRAC GASSST GSNAP 19
Résultats Prédictions : pourcentage des causes retrouvées 100 Humain, 48 millions de reads de 200 bp 61 387 5 562 5 610 145 916 1 829 38 840 045 Total Pourcentage trouvé 80 60 40 20 0 Faux positif Vrai positif SNP Insertions Délétions Épissage Chimères Erreurs Catégorie 19
Résultats Prédictions : pourcentage des causes retrouvées 100 Humain, 48 millions de reads de 200 bp 61 387 5 562 5 610 145 916 1 829 38 840 045 Total Pourcentage trouvé 80 60 40 20 0 Faux positif Vrai positif SNP Insertions Délétions Épissage Chimères Erreurs MapSplice Catégorie GSNAP MapSplice 19
Conclusion Mapping RNA-seq Localisation Plus de reads localisés par rapport aux outils existants Classement Faible taux de faux positifs 60 à 70 % des causes sont retrouvées mutations non trouvées en raison d'une faible couverture jonctions : sensibilité comparable à MapSplice, meilleure spécicité encore meilleur prochainement! 20
Gk arrays Query 1 Query 2 10 3 Time (in µs) 10 2 10 1 Time (in µs) 10 2 10 1 5 10 15 20 25 Number of reads (in millions) Query 3 5 10 15 20 25 Number of reads (in millions) Query 4 10 1 Time (in µs) 10 1 Time (in µs) 10 0 10 0 5 10 15 20 25 Number of reads (in millions) 10 1 5 10 15 20 25 Number of reads (in millions) 21
Gk arrays Maximal memory consumption Memory (GB) 40 20 0 5 10 15 20 25 Number of reads (in millions) 21