Identification de signatures responsables d erreurs systématiques dans le séquençage de l exome



Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

Analyse de la variance Comparaison de plusieurs moyennes

Intégration des paramètres de maintenance dans la conception du Health Monitoring. Saintis Laurent Laboratoire LASQUO (futur LARIS)

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Bases de données des mutations

Bases moléculaires des mutations Marc Jeanpierre

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Principe d un test statistique

Organisation du parcours M2 IR Les unités d enseignements (UE) affichées dans la partie tronc commun sont toutes obligatoires, ainsi que le stage et

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Ateliers de formation Internet. Statistiques de site

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

P R E S E N T A T I O N E T E V A L U A T I O N P R O G R A M M E D E P R E V E N T I O N «P A R L E R»

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

L évaluation de la performance de la communication media

Identification de nouveaux membres dans des familles d'interleukines

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Docteur José LABARERE

INF6304 Interfaces Intelligentes

Modélisation du comportement habituel de la personne en smarthome

de l air pour nos enfants!

Ingénierie du stockage souterrain de Gaz Naturel. Jacques GRAPPE, GEOSTOCK

CAHIER DES CHARGES GESTION DES STOCKS

Modélisation aléatoire en fiabilité des logiciels

Univers Vivant Révision. Notions STE

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

VI. Tests non paramétriques sur un échantillon

Étalonnage Consolidation au Québec

Simulation d'un examen anthropomorphique en imagerie TEMP à l iode 131 par simulation Monte Carlo GATE

CNAM léments de cours Bonus-malus et Crédibilité

Le risque Idiosyncrasique

FORMATS DE JEU POUR LA PRATIQUE DU SOCCER AU QUÉBEC FÉDÉRATION DE SOCCER DU QUÉBEC

Le parcours d achat des Français

RNV3P Recherche de pathologies émergentes

Contraintes liées aux aspects économiques, impact de la T2A : le point de vue de l industriel

données en connaissance et en actions?

Signature de la convention cadre de partenariat pour l information, la formation et la promotion de la Prévention des Risques Professionnels

CMI ECONOMIE, FINANCE QUANTITATIVE ET STATISTIQUES - PARCOURS FORMATION EN APPRENTISSAGE

Gènes Diffusion - EPIC 2010

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

INFORMATIQUE : LOGICIELS TABLEUR ET GESTIONNAIRE DE BASES DE DONNEES

2. Activités et Modèles de développement en Génie Logiciel

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Assurance de qualité en radiothérapie Aspects réglementaires et implications pratiques

APPRENDRE LA CHIMIE EN ZEP

Le signal GPS. Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = Mhz

Théorie des Jeux Et ses Applications

«Étude sur l appropriation et les usages au sein d un ENT en IUFM»

LA MESURE INDUSTRIELLE

Observation statistique

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

ELEMENTS DE BUREAUTIQUE

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Smart Grids, réseaux électriques intelligents

LA MESURE DE MASSE POUR LA DÉTERMINATION DE PÉRIODES RADIOACTIVES

MASTER MANAGEMENT PARCOURS CONTRôLE DE GESTION ET SYSTEMES D'INFORMATION

Un centre de simulation : pourquoi et comment? Conférence Management, CHU Toulouse Anne-Claude Allin 9 avril 2014

Analyse d échantillons alimentaires pour la présence d organismes génétiquement modifiés

Campagne de mesures d exposition aux fibres d amiante par microscopie électronique à transmission analytique (META)

MASTER MANAGEMENT PARCOURS MANAGEMENT ET TECHNOLOGIES DE L'INFORMATION ET DE LA COMMUNICATION

Résistance du VIH-1 aux antirétroviraux dans les compartiments anatomiques et cellulaires

COTE D IVOIRE. FICHE TECHNIQUE Ouest Côte d Ivoire. Monitoring d un projet cash : étapes, enjeux. Introduction. Les fondamentaux du monitoring

Lois de probabilité. Anita Burgun

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Big data et sciences du Vivant L'exemple du séquençage haut débit

Apprentissage Automatique

Intérêt du découpage en sous-bandes pour l analyse spectrale

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

CALENDRIER DES STAGES 2014/2015

Sage Cockpit. Solution de Business Intelligence basée sur le Web et destinée aux évaluations et aux analyses

Innovations Majeures de la Version 4

Que faire lorsqu on considère plusieurs variables en même temps?

Feuille d exercices 2 : Espaces probabilisés

TRAUMATISME CRANIEN DE L ENFANT : conduite à tenir?

Les rencontres de l Agence de l eau Clermont Ferrand 10 janvier TECHNIQUES D EPURATION Dispositifs agréés Abdel LAKEL, CSTB

Détection et prise en charge de la résistance aux antirétroviraux

SEQUENÇAGE LI-COR DNA 4200

AVANT-PROPOS Thierry Rocher

Programme «maladie» - Partie II «Objectifs / Résultats» Objectif n 2 : développer la prévention

Focus sur les pratiques de consolidation des groupes en France. Restitution de l étude ESCP-Fidanza 2012"

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

ABS 2RM : quels effets observés sur la fréquence accident?

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Le taux de retour au joueur, un des facteurs de risque du jeu problématique liés à l'offre de jeu

Disponibilité et fiabilité des services et des systèmes

L injection de biométhane dans le réseau de gaz naturel

Les Rencontres TIC de La Mêlée Numérique. Big Data & Cloud Computing : les nouveaux enjeux

Contributions à l expérimentation sur les systèmes distribués de grande taille

SysFera. Benjamin Depardon

un module de simulation des évolutions urbaines Présentation

Préleveur d'échantillons d eau automatique ELECTRO-MAGNUM /AQUAMAX 1 & 2 / SERVOTOP

Projet ANR. Bruno Capra - OXAND. 04/06/2015 CEOS.fr - Journée de restitution (Paris) B. CAPRA

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

Transcription:

Identification de signatures responsables d erreurs systématiques dans le séquençage de l exome à la recherche en laboratoire Théophile Batoz Mai 2014

Identification de signatures responsables d erreurs systématiques dans le séquençage de l exome à la recherche en laboratoire Théophile Batoz Mai 2014

Laboratoire : TIMC-IMAG équipe BCM Techniques de l Ingénierie Médicale et de la Complexité Thèse de Laure Sambourg : «Décrypter les données omiques : importance du contrôle qualité. Application au cancer de l ovaire.» données produites par TCGA à la recherche en laboratoire - Théophile Batoz

Qualité des données de séquençage : Un enjeu majeur Article de l AFSSAPS en 2011 : «le séquençage à haut débit doit faire face encore à plusieurs limitations( ) [il] produit des quantités très importantes de données dont la gestion n est pas totalement maîtrisée et encore moins automatisée.» Illumina, Roche, Ion torrent développent des filtres à la recherche en laboratoire - Théophile Batoz

Appel des génotypes Pour une position donnée: - X reads couvrant la position - Un read est variant ou non Le pourcentage de variants: 0% Homozygote référence Autour de 50% Hétérozygote 100% Homozygote variant à la recherche en laboratoire - Théophile Batoz

Comparaison des brins d une position Chaque position : 2 brins portent la même information En théorie : proportions de reads variants similaires Expérimentalement : 40% discordants à la recherche en laboratoire - Théophile Batoz

du problème Constitution de jeux d apprentissage Adaptation du logiciel d appel des génotypes pour isoler les discordants Apprentissage de signatures Matrice Poids Position (comptage, fréquence, score) Mots fréquents (différentes tailles, méthode de comptage) Modèle de Markov caché à la recherche en laboratoire - Théophile Batoz

Matrice Poids-Position Jeu d apprentissage : Séquences de 7 nucléotides p A1 p T1 p G1 p C1 p A2 p T2 p G2 p C2 p A3 p T3 p G3 p C3 p A4 p T4 p G4 p C4 p A5 p T5 p G5 p C5 p A6 p T6 p G6 p C6 p A7 p T7 p G7 p C7 Fréquence ou Score : (N, j) A, C, T, G x{1,, 7} p Nj = p Nj = log f Nj nb. de N en j nb.de séquences = f Nj a f t Nj = S Nj à la recherche en laboratoire - Théophile Batoz

Mots Fréquents On découpe chaque séquence en mots Exemple pour ACCTTTA: 6N ACCTTT 5N ACCTT 4N ACCT 3N ACC... Ensuite : Ratio: nb occurrences app nb occurences temoin CCTTTA CCTTT CTTTA CCTT CTTT TTTA CCT CTT TTT Test de comparaison de proportions pour chaque mot TTA à la recherche en laboratoire - Théophile Batoz

Modèle de Markov caché à la recherche en laboratoire - Théophile Batoz

Présentation des résultats 50% des erreurs sont de type Thymine > Guanine 77% des erreurs sont du type [A,C,T]>G Matrice de T>G : A T G C 0.68 0.47 0.77 0.18 0.71 0.97 0.92 0.30 0.41 1.04 0.51 0.41 0.18 0.64 0.59 0.63 1.55 1.85 1.29 2.57 3.88 3.65 1.35 4.3 / 1.41 / / [A,C,G]>T comportent plus de T [A,G,T]>C comportent plus de C [C,G,T]>A comportent plus de A à la recherche en laboratoire - Théophile Batoz

Mots fréquents A>T (398 717) Mot u 2α f apprentissage f temoin GTTTTT 279 11.3 TTTT 368 5.3 GTTTT 309 7.7 u 2α = φ 1 (1 α) φ étant la densité de N(0,1) à la recherche en laboratoire - Théophile Batoz

Mots fréquents A>T (398 717) A>C (706 833) C>A (288 027) GTTTTT 279 11.3 GCCC 415 6.5 TGGCTA 2976 244.7 TTTT 368 5.3 CCC 216 4.8 GAAA 160 5.0 GTTTT 309 7.7 GGCTCC 532 24.1 GAAAA 193 6.5 C>T (548 043) G>C (238 592) T>A (191 890) GCTT 452 8.4 GCTC 504 12.4 AAAA 307 6.2 CGGCTT 397 46.7 GGCTC 1113 44.9 GGCTA 305 20.3 TGGCTT 1614 75.5 TGGCTC 1752 169.8 CGAAAA 252 67.9 G>T (540 575) T>C (614 687) G>A (446 246) CTT 256 5.2 GCCC 670 9.1 GCTA 326 9.2 GGCTT 2934 78.4 GGCCC 599 13.8 TGGCT 294 8.5 TGGCTT 4128 195.5 CAGCCC 436 18.0 CGGCTA 570 108.5 A>G (2 324 462) C>G (480 918) T>G (7 211 644) GCGG 1760 16.5 GGC 464 6.6 CGG 1671 7.8 GGGG 1301 8.1 GGCTG 2026 36.8 CGGG 2517 13.3 GGCTGG 2501 37.5 TGGCAG 1352 60.7 GGCGGG 4117 59.9 à la recherche en laboratoire - Théophile Batoz

massifs et à différents niveaux : Taille des échantillons en fonction du type d erreur Matrice poids position Mots fréquents nombreux et cohérents vis-à-vis des matrices A approfondir : Taille des échantillons Méthode de comptage des mots P-valeur pour certains mots inférieur à 10 325 (u>37) à la recherche en laboratoire - Théophile Batoz

Merci à Nicolas Thierry-Mieg Marie-Paule Cani A l équipe BCM, au laboratoire TIMC-Imag