Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/



Documents pareils
GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Gènes Diffusion - EPIC 2010

Big data et sciences du Vivant L'exemple du séquençage haut débit

CHAPITRE 3 LA SYNTHESE DES PROTEINES

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Génétique et génomique Pierre Martin

Calcul intensif pour la biologie

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

TD de Biochimie 4 : Coloration.

Eco-système calcul et données

SEQUENÇAGE LI-COR DNA 4200

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Application Form/ Formulaire de demande

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

SysFera. Benjamin Depardon

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Compte-rendu de fin de projet

Les mésocentres HPC àportée de clic des utilisateurs industriels

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

CLIQUEZ ET MODIFIEZ LE TITRE

How to Login to Career Page

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Services à la recherche: Data Management et HPC *

Étude d impact et Services Écosystémiques : Comment identifier et spatialiser les enjeux?

Exemple PLS avec SAS

MABioVis. Bio-informatique et la

Notice Technique / Technical Manual

Assemblage adaptatif de génomes et de méta-génomes par passage de messages

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

Introduction aux bases de données: application en biologie

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

CATALOGUE DES PRESTATIONS DE LA

ICA Congress, Brisbane 2012 Thème général : Les temps qui changent. La confiance et les archives*

Photoactivatable Probes for Protein Labeling

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

SERVICES DE SEQUENÇAGE

Don't put socks on the Hippopotamus. Bill BELT Emmanuel DE RYCKEL

Collaborations avec la Thaïlande Enseignement, Recherche

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

OPEN SCIENCE CATI CODEX MONTPELLIER 14 FÉVRIER 2013

Instructions Mozilla Thunderbird Page 1

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

Biomarqueurs en Cancérologie

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Frequently Asked Questions

Face Recognition Performance: Man vs. Machine

Language requirement: Bilingual non-mandatory - Level 222/222. Chosen candidate will be required to undertake second language training.

Qualité et ERP CLOUD & SECURITY (HACKING) Alireza MOKHTARI. 9/12/2014 Cloud & Security

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

Environmental Research and Innovation ( ERIN )

OBJECTIFS. Une démarche E-science

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Data issues in species monitoring: where are the traps?

Bourses d excellence pour les masters orientés vers la recherche

Stéphane Lefebvre. CAE s Chief Financial Officer. CAE announces Government of Canada participation in Project Innovate.

Marie Curie Actions Marie Curie Career Integration Grant (CIG) Call: FP7-People-2012-CIG

3615 SELFIE. HOW-TO / GUIDE D'UTILISATION

Big Data et Graphes : Quelques pistes de recherche

Contents Windows

Vanilla : Virtual Box

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Contrôle d'accès Access control. Notice technique / Technical Manual

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

MENER UNE RECHERCHE D INFORMATION

Integrated Music Education: Challenges for Teaching and Teacher Training Presentation of a Book Project

FOURTH SESSION : "MRP & CRP"

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

THE SUBJUNCTIVE MOOD. Twenty-nineth lesson Vingt-neuvième leçon

Biologie Appliquée. Dosages Immunologiques TD9 Mai Stéphanie Sigaut INSERM U1141

XtremWeb-HEP Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

WEB page builder and server for SCADA applications usable from a WEB navigator

Tutoriel Cloud IFB - Initiation -

Module Title: French 4

Compléter le formulaire «Demande de participation» et l envoyer aux bureaux de SGC* à l adresse suivante :

WiFi Security Camera Quick Start Guide. Guide de départ rapide Caméra de surveillance Wi-Fi (P5)

National Research Council Canada

L OBSERVATOIRE DE LA BIOLOGIE DE SYNTHESE SYNTHETIC BIOLOGY OBSERVATORY

Quel serveur pour vous?

Innovation in Home Insurance: What Services are to be Developed and for what Trade Network?

PARIS ROISSY CHARLES DE GAULLE

Cloud Computing: de la technologie à l usage final. Patrick CRASSON Oracle Thomas RULMONT WDC/CloudSphere Thibault van der Auwermeulen Expopolis

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

Mon Service Public - Case study and Mapping to SAML/Liberty specifications. Gaël Gourmelen - France Telecom 23/04/2007

Introduction à la Génomique Fonctionnelle

Déployer des tablettes en classe de LVE: les points clés. Rennes, le 26 août 2014

Paxton. ins Net2 desktop reader USB

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

EN UNE PAGE PLAN STRATÉGIQUE

RAPID Prenez le contrôle sur vos données

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

Transcription:

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/ SupAgro, Montpellier, 10 février 2014

Le déluge de données NGS Next-generation sequencing

Rappel: synthèse de l ADN 5 3 + H + Synthèse catalysée par une ADN polymérase

Rappel: Méthode de Sanger -Préparation d une grande quantité d ADN (~1mg) -Dénaturation et ajoût de l amorce, des 4 dntp (dont 1 radioactif, S 35 ou P 32 ) et de l ADN polymérase -Faire 4 aliquots et mettre un peu de ddntp dans chaque tube -Elongation et terminaison par incorporation de didéoxynucléotides spécifiques Brin d ADN matrice Amorce Brin d ADN nouvellement synthétisé 1 ddntp est statistiquement incorporé à toutes les positions possibles

Rappel: Méthode de Sanger ddg dda ddt ddc -Préparation du gel du polyacrylamide -Dénaturation et dépôt sur gel -Migration par électrophorèse -Révélation (S 35 ou nitrate d argent) Longueur typique de lecture : 400 nucléotides Durée totale de l expérience : environ 3 jours

Un nouveau mode de préparation des échantillons et leur dépôt sur support miniaturisé Amplification simultanée d un grand nombre de fragments d ADN Sur une bille http://www.454.com/ (Roche) Sur une lame de verre http://www.solexa.com/ (Illumina)

Pyroséquençage (454 - Roche) Préparation de la librairie : PCR d ADN fixé sur bille en émulsion (1 fragment par bille) Dépôt des billes dans puits (1 bille/puit) Pyroséquençage : ajout d une seule base, s il y a incorporation alors il y a libération d un phosphate qui va agir avec protéine qui émettra de la lumière Lavage puis ajout d une deuxième base, etc. Metzker 2010

Séquençage en temps réel Utilisation de terminateurs réversibles (Solexa/ Illumina) Extrémité 3 protégée - Ajoût d un seul dntp, identifié par fluorescence Déprotection et élimination de la fluorescence avant nouvel ajoût de dntps Tan 2006, Metzker2010

Un nouveau mode de préparation des échantillons et leur dépôt sur support miniaturisé Immobilisation d un brin unique sans amplification: Hélicos Biosciences Pacific Biosciences

Détection de la fluorescence portée par un dntp: SMRT Technology, Pacific Biosciences Mesure en temps réel de l activité de la polymérase - Single Molecule Real Time SMRT TM DNA Sequencing Technology (Pacific Biosciences) : Treffer 2010 Polymerisation avec nucléotides marqués sur P /fluorophore Zero-mode waveguides (détection fluo d une seule mol.)

Les rendements de séquençage évoluent très vite HiSeq2000 avec kit TrueSeqv3-v4, 100 a 150 bases pair-end, 200 millions de cluster par lane (2x200 de reads en pair-end), 7 lanes en general (la 8e en control, soit 400 M x 150 x 7/run = 420 Gbases... (60/lanes)

Comparaison de quelques méthodes Sanger 454/ Roche GS FLX Titanium Illumina/ Solexa Genetic Analyser Life:APG SOLiD Clonage Oui Non Non Non Non SMRT/ Pacific Biosciences Technique ddntps Pyroséquençage Terminateurs réversibles Ligation Polymérisation en direct Molécule unique Lecture 800 bases/ lecture 384 lectures/ run 270 kb/run/3j 350 à 600 bases/lecture 800.000 lectures/run 0.45 Gb /run/ 8h 75 ou 100 bases/lecture pls M lectures/run 14 Gb/run/ 4j 75 bases/ lecture 100 à 200 M lectures/run 30 Gb/run/ 7j 1000 à 3000 bases/lecture et plus à venir 75000 lectures/ run XX Gb / run / 30 min, Avantages Fiabilité et taille des fragments Taille des fragments (seq rep.) et rapidité Plateforme la plus utilisée Rapidité Encodage/ 2 bases limite erreurs Grand potentiel pour de gros fragments Inconvénients Temps et coût Coût réactifs Erreurs / homopolymères Indels Longueur des lectures Un peu plus long Grand taux d erreurs

Ce qui change avec les NGS Une grande quantité de données en un temps record (un génome par individu possible)

Ce qui change avec les NGS Une grande quantité de données en un temps record (un génome par individu possible) Des séquences courtes (de + en + longues) mais une grande redondance (voir les différences et les distinguer des erreurs) Le coût (de moins en moins cher) Le paradigme de stockage - séquençage

Les grandes questions posées en amélioration des plantes Ressources génétiques Recombinaison Peut on optimiser la caractérisation et l exploitation de la diversité déjà disponible? Peut on créer de la variation génétique «utile» plus facilement? Sélection/Fixation Variété Peut on diminuer le temps de sélection/ fixation? Comment multiplier rapidement et assainir les variétés obtenues? Source : teosinte.wisc.edu www.seedquest.com www.cimmyt.org/bangladesh www.euralis-semences.fr

Des avancées méthodologiques et scientifiques valorisables Ressources génétiques Biotechnologies cellulaires et moléculaires Recombinaison Génotypage Analyse des phénotypes Sélection/Fixation Concepts en génétique et bio-mathématiques pour l analyse de données complexes Variété

Les NGS: Une innovation importante à intégrer dans ce schéma. Caractériser la diversité disponible Marqueurs +++ Ressources génétiques Recombinaison Mieux comprendre le fonctionnement des plantes cultivées Identifier des polymorphismes d intérêt agronomique Séquençage / annotation expression, épigénétique Marqueurs / QTL et génétique d association Sélection/Fixation Faciliter le suivi de nouvelles combinaisons alléliques Sélection assistée par marqueurs Variété Mais de nouvelles problématiques (bioinformatiques) pour traiter ce flux de données sans précédent

Objet de la formation: Analyse bioinformatique de séquences pour l amélioration des plantes Des données NGS nous arrivent en masse Projet ARCAD (transcriptomes) Projets de séquençage (de-novo) de génomes complets Projets de re-séquençage Il faut pouvoir les traiter convenablement (étape limitante) Présentation De démarches d analyse autour des séquences biologiques du système d un système d information (Galaxy) capable d effectuer des chaines de traitement de façon simplifiée

Analyses NGS Next-generation sequencing Aujourd hui, dans nos labos, les bioinformaticiens peuvent faire des analyses complètes de type Transcriptomiques (ArCad) Reséquençages génomiques (GrapeReseq) Demain : Séquençage de nouveaux génomes Métagénomique (écosystèmes) Après-demain: Séquençage cellule / cellule

de novo assembling

How to apply de Bruijn graphs to genome assembly, Phillip E C Compeau,Pavel A Pevzner, Glenn Tesler Nature Biotechnology, 29,, 987 991 (2011)

Mapping Trapnell C, Salzberg SL: How to map billions of short reads onto genomes. Nat Biotechnol 2009, 27(5):455-457.

Stein LD: The case for cloud computing in genome informatics. Genome Biol 2010, 11(5):207.

Stein, L.D. (2008) Towards a cyberinfrastructure for the biological sciences: progress, visions and challenges, Nat Rev Genet,

in a decade the cyberinfrastructure will be an absolutely indispensable part of the biological researcher s equipment Stein, L.D. (2008) Towards a cyberinfrastructure for the biological sciences: progress, visions and challenges, Nat Rev Genet, biological researchers will need to become familiar with the basics of computer science,[ ], and have the skills to put this informaron in a form that can be readily adapted and re used by others in the community. This will require changes in the way biology is taught at the undergraduate and graduate levels

in a decade the cyberinfrastructure will be an absolutely indispensable part of the biological researcher s equipment Stein, L.D. (2008) Towards a cyberinfrastructure for the biological sciences: progress, visions and challenges, Nat Rev Genet, biological researchers will need to become familiar with the basics of computer science,[ ], and have the skills to put this informaron in a form that can be readily adapted and re used by others in the community. This will require changes in the way biology is taught at the undergraduate and graduate levels http://bloggingforconservation.blogspot.com

http://southgreen.cirad.fr

Ressources de calculs et de stockage La plateforme repose en partie sur un cluster de calculs pouvant héberger 80 To de données, avec 270 processeurs, machines de 32 Go à 1 To de RAM.

Stéphanie Sidibe Bocs Funded by the French Na5onal Research Agency ANR (2008-2010) CIRAD, Bioversity & INRA Community annota5on system (CAS) of structural and func5onal annota5on Automa5c predic5ons and manual cura5ons of genes and transposable elements Based on GMOD components

h"p://banana- genome.cirad.fr/ Gaëtan Droc

MaOhieu Conte v2. 0 16 plant species 13.000 gene families 587.000 genes Mathieu Rouard Jean- François Dufayard

Xavier Argout Marilyne Summo

SNIPlay A web- based tool for SNP and polymorphism analysis. From sequencing traces, alignment or allelic data given as input, it detects SNP and inserron/deleron events, and sends sequences and allelic data to an integrarve pipeline (gwas, haplotype reconstrucron, haplotype network, LD, diversity) Alexis Dereeper

Strategy : compara5ve popula5on genomics with transcriptomics data 454 sequencing No Solexa sequencing Available reference? genome/transcriptome Yes Solexa sequencing De novo reference assembly Mapping on reference Ortholog/paralogs assignaron Polymorphism database in adapted format redundancy open reading frame CDS/UTR Diversity study Comparative domestication Life history trait impact Functionnal evolution CROP Breeding SNP database functional annotation selection footprint

Modélisation 3D par homologie It is generally admi"ed that a reliable model can be obtain up from 25-30% sequence iden5ty between template and target

Structures 3D des nsltp 1MID (Type I) 1TUK (Type II) 2RKN (Type IV) Hordeum vulgare C1- C6 C5- C8 TriRcum aesrvum C1- C5 C6- C8 Arabidopsis thaliana C1- C5 C6- C8

Franc-Christophe Baurens (chercheur CIRAD). Email: franc-christophe.baurens -at- cirad.fr Stéphanie Bocs (chercheuse CIRAD). Email: stephanie.sidibe-bocs -at- cirad.fr Frédéric de Lamotte (DR INRA). Email: lamotte -at- supagro.inra.fr Alexis Dereeper (IE IRD). Email: alexis.dereeper -at- ird.fr Gaétan Droc (chercheur CIRAD). Email: gaetan.droc -at- cirad.fr Jean-François Dufayard (chercheur CIRAD). Email: jean-francois.dufayard -at- cirad.fr Olivier Garsmeur (chercheur CIRAD). Email: olivier.garsmeur -at- cirad.fr Félix Homa (ingénieur CIRAD).Email: felix.homa -at- cirad.fr François Sabot (CR IRD). Email: francois.sabot -at- ird.fr Gautier Sarah (IE INRA). Email: gautier.sarah -at- supagro.inra.fr Dominique This (MdC SUPAGRO). Email: dominique.this -at- supagro.inra.fr

Thanks to Equipe Intégra5on Des Données, UMR AGAP

Thank you