Post-traitement et analyse des données



Documents pareils
Big data et sciences du Vivant L'exemple du séquençage haut débit

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Introduc)on à Ensembl/ Biomart : Par)e pra)que

StruxureWare Power Monitoring v7.0. La nouvelle génération en matière de logiciel de gestion complète d énergie

2 disques en Raid 0,5 ou 10 SAS

Logiciel de capture et de gestion des flux de documents MOINS DE PAPIER, PLUS D EFFICACITÉ. VOUS POUVEZ COMPTER SUR NOUS

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Fastilog, votre outil de gestion des activités du personnel

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Exigences système Edition & Imprimeries de labeur

DOSSIER REVENDEURS. Ciel Gestion commerciale Ciel Gestion commerciale Evolution

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Exigences système Commercial & Digital Printing

Nicolas Hanteville. for(e=n;s<i;c++){attitude();} Sur environnement Microsoft Windows

ClariLog - Asset View Suite

cc.region.beaujeu@wanadoo.fr Site Internet Actuellement nous trouvons ce schéma réseau :

Protection des données avec les solutions de stockage NETGEAR

Architectures d implémentation de Click&DECiDE NSI

Exigences système Edition & Imprimeries de labeur

CATALOGUE DES PRESTATIONS DE LA

Pour connaître les dernières informations, consultez le site Internet du produit (

Exigences système Commercial & Digital Printing

«Connais toi toi-même comme l as dit Socrate!»

Twixl Portfolio DE INDESIGN VERS LES TABLETTES. Luk Dhondt - Product Manager

LA RECONNAISSANCE VOCALE INTEGREE

Prérequis réseau constructeurs

Architecture Technique

vmware au CC-IN2P3 Déploiement rapide d une infrastructure destinée à de la formation et réflexions sur vsphere.

PREREQUIS TECHNIQUES. Yourcegid Etafi Start

Installation de Premium-RH

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Pascale Borla-Salamet Consultante Avant Vente Oracle France. Oracle Exadata Performance et Optimisation de votre Datawarehouse

SnapMusic Studio 715 Guide d Installation

WinReporter Guide de démarrage rapide. Version 4

MODE OPERATOIRE CORIM PROGRESS / SECTION MEI. Exploitation Informatique

Configuration requise

Travaux pratiques Détermination de la capacité de stockage des données

Créer une application de livre interactif pour tablette avec Indesign CS6 et Adobe Digital Publishing Suite

Configuration Matérielle et Logicielle AGORA V2

Bio-Rad Laboratories CONTRÔLE DE QUALITÉ. Le logiciel de Bio-Rad pour une gestion experte du contrôle de qualité

Procédure d'installation de SQL Server Express 2005

Préconisations Techniques & Installation de Gestimum ERP

Documentation technique du logiciel Moduleo Version du 03/12/2014

Présence obligatoire de l administrateur réseau et de l administrateur téléphonie pendant l installation et le paramétrage.

FME Server comme plateforme d échanges de données raster multi-temporelles chez MeteoSuisse

Single User. Guide d Installation

Guide d installation esam

Préconisations Portail clients SIGMA

TABLETTE MPMAN MP724 : EMPORTEZ LE MONDE AVEC VOUS

ANTI-VIRUS / PROTECTION DES POSTES DE TRAVAIL ET DES SERVEURS DE FICHIERS

SilverFast SE Plus 8 - Le meilleur logiciel de scanner... beaucoup plus qu un simple logiciel pour des scanners.

Calcul intensif pour la biologie

Big Data et Graphes : Quelques pistes de recherche

Oracle Database SQL Developer Guide D'Installation Release 4.0 E

Routeur Gigabit WiFi AC 1200 Dual Band

FICHE PRODUIT 360 SPEECHMAGIC SDK

Tropimed Guide d'installation

Comparatif entre Matrox RT.X2 et Adobe Premiere Pro CS3 (logiciel seul)

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Configuration matérielle et logicielle requise et prérequis de formation pour le SYGADE 6

Etude d architecture de consolidation et virtualisation

Guide d installation JMap 5.0

IN SYSTEM. Préconisations techniques pour Sage 100 Windows, MAC/OS, et pour Sage 100 pour SQL Server V16. Objectif :

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

SysFera. Benjamin Depardon

WebSpy Analyzer Giga 2.1 Guide de démarrage

LOGICIEL DE GESTION DE LABORATOIRE ALPHA LABO

MABioVis. Bio-informatique et la

PRESENTATION Groupe D.FI

Supervision sécurité. Création d une demande de descente. 13/03/2014 Supervision sécurité Création d'une demande

Sommaire. Systèmes d Exploitation Intégration Sage 100 Sage CRM Disponibilité Client Bases de données... 3

Infodatatech. Programme :

Tests de performance du matériel

TAI049 Utiliser la virtualisation en assistance et en dépannage informatique TABLE DES MATIERES

Indiscrétions et «zones constructeurs» «Redécouvrons nos disques durs»

Mise en œuvre de la virtualisation à l IGBMC. Guillaume Seith Remy Fritz

Perl Orienté Objet BioPerl There is more than one way to do it

TESIAL sprl. Aide pour l installation et la gestion du backup. 27 novembre 2009

COSWIN MOBILE SERVEUR DE SYNCHRONISATION GUIDE D INSTALLATION

Logiciel MAXPRO NVR SOLUTION D ENREGISTREMENT VIDÉO RÉSEAU

Procédure d'installation de SQL Server Express 2008

MITEL MICOLLAB CLIENT

Manuel utilisateur (Manuel_utilisateur_version pdf) Manuel Reprise des données (Manuel_Reprise_donnees_version

SQL Data Export for PS/PSS

AudiParc Recommandations IMPORTANTES. AudiParc Principe de fonctionnement. AudiParc Installation Déployement

Comment installer un client Rivalis Devis factures

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Active CRM. Solution intégrée de téléprospection. 04/10/2011

avast! EP: Installer avast! Small Office Administration

Structure fonctionnelle d un SGBD

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Procédure et Pré-requis

Optimisez la gestion de l information dans votre entreprise

SUGARCRM Sugar Open Source Guide d Installation de French SugarCRM Open Source Version 4.2

Transcription:

V. Garcia J. Dupiot

Post-traitement et analyse des données PAGE 1

Post-traitement et analyse des données Post-traitement. Production des séquences Evaluation de la qualité de séquençage Analyse / pipeline Illumina. Alignement sur une séquence de référence Détection des variations Estimation de l expression Visualisation. PAGE 2

I. Post-traitement. Génération des séquences 8 pistes * 120 blocs * n cycles * 4 bases Real Time Analysis (RTA) Analyse d images Base-calling tile_cycle_image.bcl Fichiers.bcl BCL converter Génération des _qseq Fichiers _qseq PAGE 3

I. Post-traitement. Qualité et fichiers fastq Fichiers _qseq ShortRead (BioConductor) Analyse de la qualité Consensus Assessment of Sequence and Variation CASAVA Démultiplexage Production des fastq Run summary Read distribution Cycle-specific base calls and read quality Fichiers fastq PAGE 4

I. Post-traitement. Fichiers fastq Ligne 1: ID Unique par lecture Ligne 2: Séquence Ligne 3: Signe + (suivi de l ID) Ligne 4: Score de qualité du base-calling Example: @30LH2AAXX:8:1:984:225 ATTCCCCTGTACTGAGACATAGAGAGTTTGCAAGACCA +30LH2AAXX:8:1:984:225 \\\\fcff\\z\\\zzz\\%++ww\\\ ZYYYVYV%% Quality Value = ASCII code 64 Analogue au score Phred mais en valeur ASCII PAGE 5

I. Post-traitement. Accés aux résultats. Accès aux résultats. Comment? Site sécurisé (sftp) Quoi? - fichiers de séquences au format fastq - statistiques de la qualité du run? Combien? 1 mois Archivage des données. Quoi? fichiers.bcl et/ou.fastq Combien? 6 mois PAGE 6

IIa. Analyse. Alignement Séquence de référence différents cas possibles Fichiers _qseq Fichier de configuration CASAVA PhageAlign / ELANDv2 Alignement sur la séquence de référence PAGE 7

IIa. CASAVA / Elandv2 Variable Application Description eland_extended Single reads Alignements single reads sur référence eland_pair Paired reads Alignement paired ends eland_rna Single reads Alignement sur une référence génomique, jonctions d épissage et contaminants ELANDv2: multiseed, gapped Jusqu à 2 mismatchs /seed gaps (indels): jusqu à 20 bases PAGE 8

II. Données mises à disposition. Statistiques de l alignement Format export: Database friendly export format that is tab delimited Format SAM: Sequence Alignment/Map (SAM) format http://samtools.sourceforge.net/ PAGE 9

IIb. Détection variants *_export.txt *_export.txt *_export.txt *_export.txt Ref.fasta.. Suppression duplicats PE Import fichiers GERALD Tri Base calling Alignement Scores qualité Profondeur Détection SNPs Détection indels SNP text file Indels text file PAGE 10

IIb. SNPs. Données mises à disposition. - SNPs - Insertions et délétions - Couverture et profondeur PAGE 11

IIb. SNPs. Données mises à disposition. SNPs : exemple du chromosome 1 humain chr1.fa.snp.txt, chr1.fa.snp.gff SNP_het1, SNP_het2, SNP_het_other: SNPs hétérozygotes SNP_diff: SNP homozygote PAGE 12

IIc. Analyse de l expression *_export.txt *_export.txt *_export.txt *_export.txt Ref.fasta.. Contaminants Jonctions épissage Suppression duplicats PE Import fichiers GERALD Tri RNA Détection SNPs Détection indels SNP text file Indels text file Count file PAGE 13

IIc. Estimation du niveau d expression. Comptes bruts / RPKM Exons Gènes Jonctions PAGE 14

III. CASAVA. Sortie texte PAGE 15

III. Visualisation: Genome Studio OS: windows (xp, vista) Licence: payante Interface graphique: conviviale, intuitive Jennifer Dupiot PAGE 16

III. Visualisation: Genome Studio Fenêtre principale Illumina Genome Viewer Illumina Chromosome Browser Jennifer Dupiot PAGE 17

III. Genome Studio: DNA sequencing module. Jennifer Dupiot PAGE 18

III. Genome Studio: RNA sequencing module. Jennifer Dupiot PAGE 19

III. Genome Studio: Chip sequencing module. Jennifer Dupiot PAGE 20

IV. Equipement informatique Stockage: 34To bruts / 24 To utiles (7,5 To MD1000 + 2 * 8 NAS) Calcul: 16 CPUs AMD opteron 8389 2.9Ghz, 6MB cache, RAM 64 Go Utilisateurs: 4 postes (RAM 8 Go, i7 4-Core 1.6 GHz, 500 Go + 6 * 1 To HD) A venir (fin 2010): Calcul * 2 Postes utilisateurs: + 2 PAGE 21

IV. Ressources Contacts: jdupiot@bordeaux.inra.fr vgarcia@bordeaux.inra.fr http://www.bordeaux.inra.fr/live/pgtb PAGE 22

V. CBiB Nouvelle Structuration Octobre 2010 L Equipe Macha Nikolski Nouvelle Directrice (CR, CNRS) Met Daniel Jacob (IR, INRA à 50%) Met Hélène Dumazet (chef de projet CDD nov 2010) Met Joel Masciocchi (IE CDD 11/2010 11/2011) NGS Patricia Thébault (MCF, 20%) NGS Alexis Groppi (IR, UB2 - à 50%) NGS Aurélien Barré (IE, UB2 à 100%) + Recrutement IE INRA info Administration Systèmes en 2011? Les Activités Rapprochement avec la Plateforme de Bioinformatique GenoToul : ReNaBi Sud Ouest Axe prioritaire 1 : Métabolomique Missions de service et Thématique R&D Axe prioritaire 2 : NGS Activité de service pour le traitement de données issus des Nouvelles Technologies de Séquencage En collaboration avec la Plateforme Génome-Transcriptome de Bordeaux, productrice des données En collaboration avec GenoToul Bioinformatique à Toulouse PAGE 23

Activités «NGS» du CBiB Rapprochement avec la Plateforme de Bioinformatique GenoToul : ReNaBi Sud Ouest Echanges de compétences techniques : Mutualisation de développements Mutualisation des formations aux biologistes Mode de fonctionnement calqué sur Toulouse : Contrat d accueil avec les équipes de biologie (définir de périmètre de la prestation) Fourniture d une expertise ciblée Projets traités : sous la forme de collaborations scientifiques (co-publications) prestations facturées PAGE 24

Fin. Merci PAGE 25

Limites / Référence Séquençage Traitement Séquences Séquences Alignement SNPs et Indels Comptage RPKM (qseq) (fasta ou fastq) Build pour GenomeStudio SE pas de référence X X X X référence génomique X référence transcriptome X? génome annoté (ucsc, ncbi, ensembl) PE pas de référence X X X X référence génomique X référence transcriptome X? génome annoté (ucsc, ncbi, ensembl) X

Post-processing. Fichiers _qseq Tab-delimited: easy to parse, easy to import into databases Split files per read on a read pair / multiple read run Quality Value = ASCII code 64 Analogue au score Phred mais en valeur ASCII

Post-processing. Qualité

IIb. Indels. Données mises à disposition. Indels : exemple du chromosome 1 humain indels.txt PAGE 13

IIc. Niveaux d expression. Données mises à disposition. 3 types: Exon Gene Epissage chr1.fa_exon_count.txt fournit le compte du nombre de fois où un exon particulier a été détecté dans un échantillon chr1.fa_gene_count.txt fournit le compte du nombre de fois où un gène particulier a été détecté dans un échantillon chr1.fa_splice_count.txt fournit le compte du nombre de lectures qui s alignent sur une jonction d épissage particulière