FORMATION RADSEQ SOUS GALAXY. Intervenant(s) : Yvan Le Bras, Cyril Monjeaud



Documents pareils
OBJECTIFS. Une démarche E-science

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

EMME : un environnement de gestion des métadonnées expérimentales

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

GUGGO 4 ème rencontre

Jean-François Boulicaut & Mohand-Saïd Hacid

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

Réunion des DU de Biogenouest 19 mars 2014

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Towards a Life Sciences Virtual Research Environment

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Open Data. Enjeux et perspectives dans les télécommunications

Gènes Diffusion - EPIC 2010

Pour un citoyen mieux informé en transports

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Big data et sciences du Vivant L'exemple du séquençage haut débit

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

[Open] [Big] Data [as a Service] [Re]définir les services publics digitaux

TRAVAUX DE RECHERCHE DANS LE

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

SysFera. Benjamin Depardon

Titre : La BI vue par l intégrateur Orange

LabCom SMILK. Social Media Intelligence and Linked Knowledge. ISTE 2013 Keynote thumb wrestling

Big- Data: Les défis éthiques et juridiques. Copyright 2015 Digital&Ethics

Eco-système calcul et données

Services à la recherche: Data Management et HPC *

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

La géomatique en Nouvelle-Calédonie usages professionnels et potentiels économiques

Bilan de l enquête de satisfaction 2012

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Tutoriel Cloud IFB - Initiation -

Utilisation du Cloud StratusLab dans le cadre d application astroparticule à l APC

«Les projets collaboratifs pour les nuls»

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

Accéder à ZeCoffre via FTP

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Qu est ce qu une offre de Cloud?

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

Conserver les Big Data, source de valeur pour demain

Big Graph Data Forum Teratec 2013

Portail d informations et de données de marchés publics ou la commande publique augmentée

Anticiper et prédire les sinistres avec une approche Big Data

Pourquoi intégrer le Big Data à son organisa3on?

UNIVERSITE DE BREST Référence GALAXIE : 4201

Présentation du M2 SIC : Systèmes Informatiques et Applications Marines

Restoring people s trust in their government by making governments more open and transparent

RECHERCHER ACCÉDER PROTÉGER. Solutions professionnelles pour la protection et l exploitation sécurisée des données informatiques

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

EXL GROUP FILIÈRE ERP - QUI SOMMES NOUS?

Christophe Dubos Architecte Infrastructure et Datacenter Microsoft France

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

Entrez dans l ère du Numérique Très Haut Débit

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Business Intelligence simple et efficace avec Excel et PowerPivot

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

Big data : vers une nouvelle science des risques?

BIG DATA en Sciences et Industries de l Environnement

Détection et prise en charge de la résistance aux antirétroviraux

Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une institution publique de recherche

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Entreprise et Big Data

Les datas = le fuel du 21ième sicècle

SOLUTION DE GESTION D UN CLUB SERVICE

Portage salarial, couveuse, incubateur : entreprendre différemment

Les Géodatabases en 9.2

VISIUM. Méthodologie visuelle Visualisation de système Conception et Optimisation Système d information et d organisation

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

SHAREPOINT 2013 : MON INTRANET PARTOUT AVEC MOI

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

S8 - INFORMATIQUE COMMERCIALE

Conception d'une plate-forme collaborative Microsoft SharePoint 2003

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Les Rencontres TIC de La Mêlée Numérique. Big Data & Cloud Computing : les nouveaux enjeux

La Neutralité du Net

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

L analyse de la gestion de la clientèle

Le cloud IFB et ses services bioinformatiques

Programmation parallèle et distribuée (Master 1 Info )

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Business Intelligence avec Excel, Power BI et Office 365

Le passage à l open source, une nouvelle priorité

Accélérez vos tests et développements avec le Cloud, découvrez SoftLayer, la dernière acquisition Cloud d'ibm

ÉCOLE POLYTECHNIQUE DE MONTRÉAL. Département de Génie Électrique. La technologie de TEXAS INSTRUMENTS DSP pour le cours Analyse des Signaux ELE2700

Manuel d'utilisation: Gestion commerciale - CRM

Annexe 6 et 7 Du Contrat de Performance Medicen Paris Region. Liste des engagements du Pôle avec d autres clusters français ou étrangers

Transcription:

FORMATION RADSEQ SOUS GALAXY Intervenant(s) : Yvan Le Bras, Cyril Monjeaud

E-BIOGENOUEST Programme fédérateur Biogenouest co-financé par les Régions Bretagne et Pays de la Loire 24 mois Lancé depuis Mai 2012 Porteur : Olivier Collin (IRISA) Animateur : Yvan Le Bras (IRISA) Tester une approche e-science en Sciences de la vie Proposer une structuration e-science dans le Grand Ouest

Briser les silos Défis : Chaque domaine est particulier mais digital! Solution : Se centrer sur la donnée! Big Data relatif, collaboration, interdisciplinarité, mutualisation, solutions open source

Optimiser / Standardiser Kahn. On the future of genomic data. Science (2011) vol. 331 (6018) pp. 728-9 Code, algorithmes, calcul, stockage, réseau, bonnes pratiques Prévoir interopérabilité, langage commun, vocabulaire contrôlé, ontologies

People paradox Bioinformatique Séquençage Using Clouds for Metagenomics: A Case Study Wilkening et al. IEEE cluster 2009 Défis : Manque RH, Evolution des usages Solutions : mutualisation, science citoyenne, Environnement virtuel de recherche

Solution : e-science TIC Domaine scientifique Une démarche e-science Brest Roscoff Rennes Un environnement virtuel de recherche Nantes Angers

LE VRE Un environnement virtuel de recherche en sciences de la vie

Un début de structuration e-science? Le HUB ebgo HUBzero pour partager les connaissances et gérer les groupes et projets Discuter Collaborer Rechercher Explorer Uploader Informations 164 utilisateurs 83 projets 52 groupes 657 ressources Questionner Reviewer Analyser Visualiser Publier Vérifier Analyser

Un début de structuration e-science? ebgo : Collaboration

Un début de structuration e-science? EMME suite ISA tools pour enregistrer données et métadonnées Collaborer Rechercher Explorer Discuter Uploader Protocoles existant Métabolomique Protéomique Génomique Bio-informatique Questionner Analyser Protocoles sur mesure Colorimétrie Dosage d ions plasmatique Reviewer Publier Vérifier Analyser Visualiser

Un début de structuration e-science? EMME suite ISA tools : isacreator configurator Protocoles existant Métabolomique, Protéomique, Génomique Protocoles sur mesure Bio-informatique, Protéomique ICPL,

Un début de structuration e-science? GALAXY by GenOuest pour analyser et partager les données Collaborer Rechercher Explorer Discuter Uploader Informations 26325 jobs 136 utilisateurs Plus de 800 outils -NGS -Génomique des populations -Génétique quantitative -Protéomique -Nombreux utilitaires - Questionner Reviewer Publier Vérifier Analyser Analyser Visualiser

I have a dream Pour les scientifiques en sciences de la vie et environnement Optimiser son temps (programmation vs compréhension) Préserver (données et processus analytiques) Accéder, partager et visualiser de n importe où Une aide à la gestion de projet Pour les développeurs Améliorer l utilisation des algo et outils : Bioinfo Recherche Accélérer la mise en production Service Pour la gestion des infrastructures Optimiser l utilisation (stockage, calcul et réseaux ) Infrastructure pour la donnée infastructure de donnée

LE RADSEQ Voir la présentation de Karim Gharbi du 30/01/2014 edinburgh genomics / University of Edinburgh

Buts

L arrivée du NGS Allozymes, RAPD, AFLP, Microsatellites, Puces SNPs NGS Baisse du coût de séquençage pas de l analyse ;) Le séquençage de beaucoup d individus + bcp de marqueurs reste onéreux Besoins de sous-échantillonner le génome

Réduction de génome -Fragmentation de l ADN (étape très couteuse!) -Sélection des fragments par taille -Ligation d adaptateurs pour le séquençage Utilisé au Roslin institute pour faire puce SNP

Réduction de génome -Publi initiale : Eric Johnsson, 2008 -Article d Hohenlohe dans les 5 premiers

Application

Single-end RAD

Single-end RAD

Paired-end RAD

Paired-end RAD

Paired-end RAD

Single vs Paired-end RAD

ddrad

ddrad

Paired-end ddrad

RAD vs ddrad

Ne rester pas en RAD, ni à sec.

Retours Paired-end / single Préparation de banque identique SE : 300pb / PE 300pb + 300 à 500pb Coût très supérieur en PE Single end limité pour trouvé SNP et faire puce à ADN Plus il y a de séquences, plus il est facile de filtrer paralogues. Filtrage de duplication de lectures possible en PE, pas en SE RAD simple / ddrad RAD simple : séquençage entre site de restriction et cassure par sonication ddrad : séquençage entre 2 sites de restriction donc plus de flexibilité sur les fragments générés, répartirions des lectures En ddrad, le tout adaptateur + barcode + site de restriction + ADN + adaptateur ~500pb

Retours Biais connus Pb analyse image quand même nucléotide dans toute les séquences à la même position. Surtout sur HiSeq, moins sur MiSeq Mieux vaut utiliser plein de barcodes différents. Reste pb du site de restriction! Il vaut mieux alors également mélanger les expériences! infos 250 ng ADN nécessaire, 1 µg demandé à edinburgh genomics Il faut une qualité au top! Pas d ADN dégradé. Cela peut induire de ne pas utiliser 30 à 40% des données PCR 12 à 14 cycles Profondeur différente en fonction des tailles de fragments! Peut poser pb surtout si mutation au niveau d un site de restriction chez certains individus Licence / Brevet QiaGen? Voir Davey et al, Molecular Ecology (2012)

LE RADSEQ SOUS GALAXY Utilisation du pipeline Stacks

Programme Détection de SNP Etude des parents d une famille Cartographie Génétique Etude d une famille avec 93 descendants Construction de mini-contig Données pairées Génomique des population Sans génome de référence Avec génome de référence

Buts Se familiariser avec l utilisation de données NGS à partir de librairies réduites (RRL) S initier à l utilisation de Galaxy du pipeline STACKS Apprendre Préparation de donées brutes Illumina RAD Alignement de lectures sur un génome de référence Assembler des loci RAD Détecter des SNP, déterminer génotypes et haplotypes Calculer des statistiques en génétique des populations

Jeux de données et outils Ceux proposés par Julian dans ces formations Jeux de données épinoche de l'article d'hohenlohe et al. 2010 Nettoyage et l'analyse des données via Galaxy, le pipeline STACKS et BWA. Les jeux de données seront tous produits via des séquenceurs de type Illumina GAII ou HiSeq2000. Les logiciels sont tous open source

Merci de votre attention La plate-forme Bio-informatique GenOuest Le groupe Symbiose IRISA/INRIA GenOuest-Dyliss-Genscale Cyril Monjeaud ebgo HUB (collaboration) http://www.e-biogenouest.org/ Olivier Collin EMME portal (data management ) http://emme.genouest.org/ Galaxy instance (data analysis) GO4Bioinformatics (education) http://galaxy.genouest.org/ http://go4bioinformatics.genouest.org/