V. Garcia J. Dupiot
Post-traitement et analyse des données PAGE 1
Post-traitement et analyse des données Post-traitement. Production des séquences Evaluation de la qualité de séquençage Analyse / pipeline Illumina. Alignement sur une séquence de référence Détection des variations Estimation de l expression Visualisation. PAGE 2
I. Post-traitement. Génération des séquences 8 pistes * 120 blocs * n cycles * 4 bases Real Time Analysis (RTA) Analyse d images Base-calling tile_cycle_image.bcl Fichiers.bcl BCL converter Génération des _qseq Fichiers _qseq PAGE 3
I. Post-traitement. Qualité et fichiers fastq Fichiers _qseq ShortRead (BioConductor) Analyse de la qualité Consensus Assessment of Sequence and Variation CASAVA Démultiplexage Production des fastq Run summary Read distribution Cycle-specific base calls and read quality Fichiers fastq PAGE 4
I. Post-traitement. Fichiers fastq Ligne 1: ID Unique par lecture Ligne 2: Séquence Ligne 3: Signe + (suivi de l ID) Ligne 4: Score de qualité du base-calling Example: @30LH2AAXX:8:1:984:225 ATTCCCCTGTACTGAGACATAGAGAGTTTGCAAGACCA +30LH2AAXX:8:1:984:225 \\\\fcff\\z\\\zzz\\%++ww\\\ ZYYYVYV%% Quality Value = ASCII code 64 Analogue au score Phred mais en valeur ASCII PAGE 5
I. Post-traitement. Accés aux résultats. Accès aux résultats. Comment? Site sécurisé (sftp) Quoi? - fichiers de séquences au format fastq - statistiques de la qualité du run? Combien? 1 mois Archivage des données. Quoi? fichiers.bcl et/ou.fastq Combien? 6 mois PAGE 6
IIa. Analyse. Alignement Séquence de référence différents cas possibles Fichiers _qseq Fichier de configuration CASAVA PhageAlign / ELANDv2 Alignement sur la séquence de référence PAGE 7
IIa. CASAVA / Elandv2 Variable Application Description eland_extended Single reads Alignements single reads sur référence eland_pair Paired reads Alignement paired ends eland_rna Single reads Alignement sur une référence génomique, jonctions d épissage et contaminants ELANDv2: multiseed, gapped Jusqu à 2 mismatchs /seed gaps (indels): jusqu à 20 bases PAGE 8
II. Données mises à disposition. Statistiques de l alignement Format export: Database friendly export format that is tab delimited Format SAM: Sequence Alignment/Map (SAM) format http://samtools.sourceforge.net/ PAGE 9
IIb. Détection variants *_export.txt *_export.txt *_export.txt *_export.txt Ref.fasta.. Suppression duplicats PE Import fichiers GERALD Tri Base calling Alignement Scores qualité Profondeur Détection SNPs Détection indels SNP text file Indels text file PAGE 10
IIb. SNPs. Données mises à disposition. - SNPs - Insertions et délétions - Couverture et profondeur PAGE 11
IIb. SNPs. Données mises à disposition. SNPs : exemple du chromosome 1 humain chr1.fa.snp.txt, chr1.fa.snp.gff SNP_het1, SNP_het2, SNP_het_other: SNPs hétérozygotes SNP_diff: SNP homozygote PAGE 12
IIc. Analyse de l expression *_export.txt *_export.txt *_export.txt *_export.txt Ref.fasta.. Contaminants Jonctions épissage Suppression duplicats PE Import fichiers GERALD Tri RNA Détection SNPs Détection indels SNP text file Indels text file Count file PAGE 13
IIc. Estimation du niveau d expression. Comptes bruts / RPKM Exons Gènes Jonctions PAGE 14
III. CASAVA. Sortie texte PAGE 15
III. Visualisation: Genome Studio OS: windows (xp, vista) Licence: payante Interface graphique: conviviale, intuitive Jennifer Dupiot PAGE 16
III. Visualisation: Genome Studio Fenêtre principale Illumina Genome Viewer Illumina Chromosome Browser Jennifer Dupiot PAGE 17
III. Genome Studio: DNA sequencing module. Jennifer Dupiot PAGE 18
III. Genome Studio: RNA sequencing module. Jennifer Dupiot PAGE 19
III. Genome Studio: Chip sequencing module. Jennifer Dupiot PAGE 20
IV. Equipement informatique Stockage: 34To bruts / 24 To utiles (7,5 To MD1000 + 2 * 8 NAS) Calcul: 16 CPUs AMD opteron 8389 2.9Ghz, 6MB cache, RAM 64 Go Utilisateurs: 4 postes (RAM 8 Go, i7 4-Core 1.6 GHz, 500 Go + 6 * 1 To HD) A venir (fin 2010): Calcul * 2 Postes utilisateurs: + 2 PAGE 21
IV. Ressources Contacts: jdupiot@bordeaux.inra.fr vgarcia@bordeaux.inra.fr http://www.bordeaux.inra.fr/live/pgtb PAGE 22
V. CBiB Nouvelle Structuration Octobre 2010 L Equipe Macha Nikolski Nouvelle Directrice (CR, CNRS) Met Daniel Jacob (IR, INRA à 50%) Met Hélène Dumazet (chef de projet CDD nov 2010) Met Joel Masciocchi (IE CDD 11/2010 11/2011) NGS Patricia Thébault (MCF, 20%) NGS Alexis Groppi (IR, UB2 - à 50%) NGS Aurélien Barré (IE, UB2 à 100%) + Recrutement IE INRA info Administration Systèmes en 2011? Les Activités Rapprochement avec la Plateforme de Bioinformatique GenoToul : ReNaBi Sud Ouest Axe prioritaire 1 : Métabolomique Missions de service et Thématique R&D Axe prioritaire 2 : NGS Activité de service pour le traitement de données issus des Nouvelles Technologies de Séquencage En collaboration avec la Plateforme Génome-Transcriptome de Bordeaux, productrice des données En collaboration avec GenoToul Bioinformatique à Toulouse PAGE 23
Activités «NGS» du CBiB Rapprochement avec la Plateforme de Bioinformatique GenoToul : ReNaBi Sud Ouest Echanges de compétences techniques : Mutualisation de développements Mutualisation des formations aux biologistes Mode de fonctionnement calqué sur Toulouse : Contrat d accueil avec les équipes de biologie (définir de périmètre de la prestation) Fourniture d une expertise ciblée Projets traités : sous la forme de collaborations scientifiques (co-publications) prestations facturées PAGE 24
Fin. Merci PAGE 25
Limites / Référence Séquençage Traitement Séquences Séquences Alignement SNPs et Indels Comptage RPKM (qseq) (fasta ou fastq) Build pour GenomeStudio SE pas de référence X X X X référence génomique X référence transcriptome X? génome annoté (ucsc, ncbi, ensembl) PE pas de référence X X X X référence génomique X référence transcriptome X? génome annoté (ucsc, ncbi, ensembl) X
Post-processing. Fichiers _qseq Tab-delimited: easy to parse, easy to import into databases Split files per read on a read pair / multiple read run Quality Value = ASCII code 64 Analogue au score Phred mais en valeur ASCII
Post-processing. Qualité
IIb. Indels. Données mises à disposition. Indels : exemple du chromosome 1 humain indels.txt PAGE 13
IIc. Niveaux d expression. Données mises à disposition. 3 types: Exon Gene Epissage chr1.fa_exon_count.txt fournit le compte du nombre de fois où un exon particulier a été détecté dans un échantillon chr1.fa_gene_count.txt fournit le compte du nombre de fois où un gène particulier a été détecté dans un échantillon chr1.fa_splice_count.txt fournit le compte du nombre de lectures qui s alignent sur une jonction d épissage particulière