Analyses de données NGS et présentation de la librairie NGS++



Documents pareils
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Projet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

Paris Airports - Web API Airports Path finding

La méthode de régression par discontinuité et l évaluation des politiques de l emploi

Face Recognition Performance: Man vs. Machine

Gestion des prestations Volontaire

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Instructions Mozilla Thunderbird Page 1

Architecture Orientée Service, JSON et API REST

Le Product Backlog, qu est ce c est?

Lambda! Rémi Forax Univ Paris-Est Marne-la-Vallée

Exemple PLS avec SAS

Introduction aux bases de données: application en biologie

WEB page builder and server for SCADA applications usable from a WEB navigator

WEA Un Gérant d'objets Persistants pour des environnements distribués

Data issues in species monitoring: where are the traps?

Exceptions. 1 Entrées/sorties. Objectif. Manipuler les exceptions ;

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

27/11/12 Nature. SDK Python et Java pour le développement de services ACCORD Module(s)

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

ONTARIO Court File Number. Form 17E: Trial Management Conference Brief. Date of trial management conference. Name of party filing this brief

Improving the breakdown of the Central Credit Register data by category of enterprises

Reporting Services - Administration

Présentation du langage et premières fonctions

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Programme

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

Utilisation de JAVA coté Application serveur couplé avec Oracle Forms Hafed Benteftifa Novembre 2008

Par Laurent DESECHALLIERS. Mastère Spécialisé en Management de Projets en Milieu Industriel. CESI de Rouen Promotion 2002/2003.

Pratiques induites par les réunions à distance : discours, identités et organisation des actions

Contrôle d'accès Access control. Notice technique / Technical Manual

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Une méthode d apprentissage pour la composition de services web

Stéphane DERACO, DSI CNRS l Argos Devops : de l hyperviseur aux conteneurs l 11/12/2014 DOCKER

I>~I.J 4j1.bJ1UlJ ~..;W:i 1U

Efficient Object Versioning for Object- Oriented Languages From Model to Language Integration

MANUEL MARKETING ET SURVIE PDF

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

INF6304 Interfaces Intelligentes

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

EIP 2012 Projet Livepad. Documentation technique 1.5

RTDS G3. Emmanuel Gaudin

SQL Parser XML Xquery : Approche de détection des injections SQL

Master (filière Réseau) Parcours Recherche: Systèmes Informatiques et Réseaux (RTS)

CEST POUR MIEUX PLACER MES PDF

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

Formation continue BNF // Programme des cours 2015

Qualité de la conception de tests logiciels : plate-forme de conception et processus de test

3615 SELFIE. HOW-TO / GUIDE D'UTILISATION

Génération de code binaire pour application multimedia : une approche au vol

SECTION 5 BANQUE DE PROJETS

CHAPITRE 4. La réglementation du médicament

DA MOTA Anthony - Comparaison de technologies : PhoneGap VS Cordova

Types d applications pour la persistance. Outils de développement. Base de données préexistante? 3 modèles. Variantes avec passerelles

Forthcoming Database

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Program

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Présentation du logiciel

Paxton. ins Net2 desktop reader USB

4 Exemples de problèmes MapReduce incrémentaux

Modélisation géostatistique des débits le long des cours d eau.

Algorithmes de recommandation, Cours Master 2, février 2011

JSIam Introduction talk. Philippe Gradt. Grenoble, March 6th 2015

APPROBATION DES PROCEDURES DE VOL A VUE ET DE VOL AUX INSTRUMENTS

POLICY: FREE MILK PROGRAM CODE: CS-4


Fingerprinting d'applications Web

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Télécom Nancy Année

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

Dis où ces gens vont d après les images / Tell where these people are going based on the pictures.

Vanilla : Virtual Box

VTP. LAN Switching and Wireless Chapitre 4

Programmation Web. Madalina Croitoru IUT Montpellier

THE SUBJUNCTIVE MOOD. Twenty-nineth lesson Vingt-neuvième leçon

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

TP 1. Prise en main du langage Python

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Plan. Department of Informatics

If you understand the roles nouns (and their accompanying baggage) play in a sentence...

Analyse de performance, monitoring

Utilisation du Cloud StratusLab dans le cadre d application astroparticule à l APC

Bienvenue au séminaire HP Service Anywhere Mardi 11 février 2014

Practice Direction. Class Proceedings

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

ERESI : une plate-forme d'analyse binaire au niveau noyau. The ERESI team

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

THE FRENCH EXPERIENCE 1

Introduction à Java. Matthieu Herrb CNRS-LAAS. Mars

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

AUTUMN/WINTER PARIS COLLECTION

Cette Leçon va remplir ces attentes spécifiques du curriculum :

Mendeley, pour gérer sa bibliographie et la partager. Patricia Volland-Nail

Supervision et infrastructure - Accès aux applications JAVA. Document FAQ. Page: 1 / 9 Dernière mise à jour: 15/04/12 16:14

APPENDIX 6 BONUS RING FORMAT

Transcription:

Analyses de données NGS et présentation de la librairie NGS++ UQÀM, 13 Mars 2013 Alexei Nordell Markovits

2 Présentation Nicolas Gevry Shengrui Wang

3 Plan 1) Introduction/Next Generation Sequencing(NGS) 2) Critiques de certaines pratiques d'analyses 3) Présentation de la librairie NGS++

4 1) 1990, congrès des É-U vote 3 milliard, date prévue de 2005. 2) Fini en 2003, 2,7 milliard.

5

6

7

Épigénétique 8 ChIP-Seq RNA-Seq DNA-Seq FAIRE CHIA-PET

Data 9

10

11 Oh my God what should I do now??? Quantité astronomique de résultats publiés. En ratio, peu de discussion sur les méthodes d'analyses. Donc : Certaines méthodes peu adaptées ont été reprises. Les créateurs d'outils ont contribué.

Aggregate profile 12

Aggregate profile 13

Segmentation 14 Une région = 200-500 dimensions, non-normalisées Distribution potentiellement différente Information locale et dépendance dans le temps Dans ce contexte, nous pouvons se questionner sur la sélection de la distance Euclidienne

http://www.rithme.eu/ 15

p-value 16 Supposition : Probabilité que la région soit enrichie Réalité : Probabilité que la densité soit générée d'une distribution de Poisson avec lamba local

FDR 17 Wikipedia: False discovery rate (FDR) control is a statistical method used in multiple hypothesis testing to correct for multiple comparison Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing Author(s): Yoav Benjamini and Yosef Hochberg (1995 ) Statistical significance for genome-wide experiments. Storey, J. D. and Tibshirani, R. J. (2003) Discovering the false discovery rate. Benjamini, Yoav (2010)

FDR 18...empirically estimates the false discovery rate (FDR) for each detected peak using the same procedure employed in the previous ChIP-chip... At each p-value...the same parameters to find ChIP peaks over control and control peaks over ChIP (that is, a sample swap). The empirical FDR is defined as number of control peaks / Number of ChIP peaks Zhang, Y., Liu, T., Meyer, C., Eeckhoute, J., Johnson, D., Bernstein, B., Nusbaum, C., et al. (2008). Model-based Analysis of ChIP-Seq (MACS). Genome biology, 9(9), R137.

Nucleosome calling (Normal) 19 Fuzziness Supposition : Déplacement du nucléosome Réalité : Écart type d'une loi normale modélisée sur les données (GMM)

Conclusion 20 L'absence d'évaluation théorique/technique des méthodes employées sera (est?) nuisible à la recherche dans le domaine Les outils accentuent la situation. L'usager suppose une expertise technique dans les termes utilisés Technically correct n'est pas suffisant

21

22 Termes Librairie : Aussi appelée Package, modules, etc L objectif d une librairie est de faciliter la création de d outils en permettant au développeur de réutiliser des fonctionnalités déjà fournies. I realized that, paradoxically enough, good programmers need to be both lazy and dumb. - Philipp Lenssen

23 Pourquoi? Deux problématiques Gestion de formats hétérogènes Appliquer rapidement des transformations spécifiques.

24 Format fichier NGS Les formats génomiques sont hétérogènes et multiples SAM/BAM GFF(1-3) GTF Bed(3-9) GenePred VCL...

25 Format fichier NGS L'information contenue dans ces formats s entrecroise partiellement. Position : BED/SAM/GTF/GENEPRED/BEDGRAPH Score : BED/GTF/BEDGRAPH Séquence : SAM Exon : GENEPRED/GFF Rajoute à la complexité de manipuler des données NGS

26 Format fichier NGS Il est souhaitable : D'avoir une structure pour gérer la majorité des formats D'avoir une interface commune aux informations communes des formats D'avoir une interface spécialisée pour les informations exclusives des formats

27 Transformation spécifiques

28 Difficultés - Outils spécialisés - Relativement peu de support pour le développeur. - Donc : Développement d'une librairie en C++ cherchant à offrir une interface transparente entre des formats de données hétérogènes et une structure interne souple.

29 Librairie C++ - Pourquoi C++? BioPerl, Python, R -Avantages: Quelques librairie existent ( BedTools, BamTools, SeqAN) C++11 Élargir les disponibilités Langage compilé En pratique...

Structure 30

Structure 31

Structure 32

33 Librairie C++ Plusieurs fonctionalités Overlap Subset Count Merge Stats

34 Plusieurs opérateurs fonctionels Éléments clés de la librairie Permet de filter/interroger/transformer les données Plusieurs wrappers de la STL++ transform for_each count sort filter

35 C++11 Nouveau standard Programmation fonctionelle/générique ++ Fonction Lambda! Lambda = fonction Just in Time

36 C++11 Why do we care? Facilite la manipulation des structures via les opérateurs fonctionels. Ex: countsiteswithproperty(unarypredicate p)

37 Ce qui permet du code tel que

38 OpenMPI Facile à rendre parallèle Compilation avec fopenmp Résumé Structure interne simple Fonctionnalité essentielle pré-implémentée. Fonctionnalité supplémentaire facile à intégrer via fonction lambda et opérateurs fonctionels.

39 La question des formats Pont entre les données et la structure Objet Parser et Token Objet Token Format intermédiaire Assigne des marqueurs à des données génériques (string) Ex : CHR, START_POS, END_POS, SCORE, etc

40 Objet Token Les marqueurs peuvent avoir des conditions et de actions associées Ex: START_POS >= 0 END_POST >= START_POS STRAND = +/-/* Inférence si SEQUENCE sans END_POS

41 Objet Parser Objet Token Existe un type (héritage) pour chaque format supporté. L'objet à la responsabilité de lire chaque entrée et de créer un Token correspondant Via les marquages, l'association des données similaires est faite. Les structures de données sont toutes capables de recevoir un Token et ressortir l'information appropriée.

42

43 Exemple ubasicngsexperiment loadedfile; uparser bedparser(firststream, BED ); loadedfile.loadwithparser(bedparser,"bed"); uwriter bedwriter(&cout,"bed4"); auto functoverlap=[&](ubasicngs item) { if (loadedfile.ischrom(item.getchr())) { ubasicngschrom comparechrom(item.getchr()); comparechrom.adddata(item); auto pchrom= loadedfile.getpchrom(item.getchr()); if (pchrom->getoverlappingcount(comparechrom)>0) item.writetooutput(bedwriter); } }; loadedfile.loadwithparserandrun(secondstream,"bed",functoverlap); }

44 Conclusion Avantages Lecture/écriture génomique facilitée Saveur fonctionelle permet de manipuler les données facilement Rapide Inconvénients C++ 11 Lecture un peu lente Utilisation de mémoire Certains types d'opérations à travailler

45 Remerciements Laboratoire de Arnaud Droit Charles Joly-Beauparlant Laboratoire de Shengrui Wang Dominique Toupin