Identification de signatures responsables d erreurs systématiques dans le séquençage de l exome à la recherche en laboratoire Théophile Batoz Mai 2014
Identification de signatures responsables d erreurs systématiques dans le séquençage de l exome à la recherche en laboratoire Théophile Batoz Mai 2014
Laboratoire : TIMC-IMAG équipe BCM Techniques de l Ingénierie Médicale et de la Complexité Thèse de Laure Sambourg : «Décrypter les données omiques : importance du contrôle qualité. Application au cancer de l ovaire.» données produites par TCGA à la recherche en laboratoire - Théophile Batoz
Qualité des données de séquençage : Un enjeu majeur Article de l AFSSAPS en 2011 : «le séquençage à haut débit doit faire face encore à plusieurs limitations( ) [il] produit des quantités très importantes de données dont la gestion n est pas totalement maîtrisée et encore moins automatisée.» Illumina, Roche, Ion torrent développent des filtres à la recherche en laboratoire - Théophile Batoz
Appel des génotypes Pour une position donnée: - X reads couvrant la position - Un read est variant ou non Le pourcentage de variants: 0% Homozygote référence Autour de 50% Hétérozygote 100% Homozygote variant à la recherche en laboratoire - Théophile Batoz
Comparaison des brins d une position Chaque position : 2 brins portent la même information En théorie : proportions de reads variants similaires Expérimentalement : 40% discordants à la recherche en laboratoire - Théophile Batoz
du problème Constitution de jeux d apprentissage Adaptation du logiciel d appel des génotypes pour isoler les discordants Apprentissage de signatures Matrice Poids Position (comptage, fréquence, score) Mots fréquents (différentes tailles, méthode de comptage) Modèle de Markov caché à la recherche en laboratoire - Théophile Batoz
Matrice Poids-Position Jeu d apprentissage : Séquences de 7 nucléotides p A1 p T1 p G1 p C1 p A2 p T2 p G2 p C2 p A3 p T3 p G3 p C3 p A4 p T4 p G4 p C4 p A5 p T5 p G5 p C5 p A6 p T6 p G6 p C6 p A7 p T7 p G7 p C7 Fréquence ou Score : (N, j) A, C, T, G x{1,, 7} p Nj = p Nj = log f Nj nb. de N en j nb.de séquences = f Nj a f t Nj = S Nj à la recherche en laboratoire - Théophile Batoz
Mots Fréquents On découpe chaque séquence en mots Exemple pour ACCTTTA: 6N ACCTTT 5N ACCTT 4N ACCT 3N ACC... Ensuite : Ratio: nb occurrences app nb occurences temoin CCTTTA CCTTT CTTTA CCTT CTTT TTTA CCT CTT TTT Test de comparaison de proportions pour chaque mot TTA à la recherche en laboratoire - Théophile Batoz
Modèle de Markov caché à la recherche en laboratoire - Théophile Batoz
Présentation des résultats 50% des erreurs sont de type Thymine > Guanine 77% des erreurs sont du type [A,C,T]>G Matrice de T>G : A T G C 0.68 0.47 0.77 0.18 0.71 0.97 0.92 0.30 0.41 1.04 0.51 0.41 0.18 0.64 0.59 0.63 1.55 1.85 1.29 2.57 3.88 3.65 1.35 4.3 / 1.41 / / [A,C,G]>T comportent plus de T [A,G,T]>C comportent plus de C [C,G,T]>A comportent plus de A à la recherche en laboratoire - Théophile Batoz
Mots fréquents A>T (398 717) Mot u 2α f apprentissage f temoin GTTTTT 279 11.3 TTTT 368 5.3 GTTTT 309 7.7 u 2α = φ 1 (1 α) φ étant la densité de N(0,1) à la recherche en laboratoire - Théophile Batoz
Mots fréquents A>T (398 717) A>C (706 833) C>A (288 027) GTTTTT 279 11.3 GCCC 415 6.5 TGGCTA 2976 244.7 TTTT 368 5.3 CCC 216 4.8 GAAA 160 5.0 GTTTT 309 7.7 GGCTCC 532 24.1 GAAAA 193 6.5 C>T (548 043) G>C (238 592) T>A (191 890) GCTT 452 8.4 GCTC 504 12.4 AAAA 307 6.2 CGGCTT 397 46.7 GGCTC 1113 44.9 GGCTA 305 20.3 TGGCTT 1614 75.5 TGGCTC 1752 169.8 CGAAAA 252 67.9 G>T (540 575) T>C (614 687) G>A (446 246) CTT 256 5.2 GCCC 670 9.1 GCTA 326 9.2 GGCTT 2934 78.4 GGCCC 599 13.8 TGGCT 294 8.5 TGGCTT 4128 195.5 CAGCCC 436 18.0 CGGCTA 570 108.5 A>G (2 324 462) C>G (480 918) T>G (7 211 644) GCGG 1760 16.5 GGC 464 6.6 CGG 1671 7.8 GGGG 1301 8.1 GGCTG 2026 36.8 CGGG 2517 13.3 GGCTGG 2501 37.5 TGGCAG 1352 60.7 GGCGGG 4117 59.9 à la recherche en laboratoire - Théophile Batoz
massifs et à différents niveaux : Taille des échantillons en fonction du type d erreur Matrice poids position Mots fréquents nombreux et cohérents vis-à-vis des matrices A approfondir : Taille des échantillons Méthode de comptage des mots P-valeur pour certains mots inférieur à 10 325 (u>37) à la recherche en laboratoire - Théophile Batoz
Merci à Nicolas Thierry-Mieg Marie-Paule Cani A l équipe BCM, au laboratoire TIMC-Imag