La formation et le Cloud IFB Institut Français de Bioinformatique - IFB French Institute of Bioinformatics - ELIXIR-FR CNRS UMS3601 - Gif-sur-Yvette - FRANCE Assemblée Générale IFB 25-26 janvier 2016
Ac#ons de Forma#on Actions ayant pour sujet le cloud Former la communauté à l utilisation du cloud IFB pour ses analyses et développements méthodologiques Cursus "Cloud IFB pour les Sciences du Vivant» Documentation en ligne Ecole Cumulo Numbio 2015 Le cloud IFB en soutien aux formations thématiques Apporter aux formations thématiques un soutien en termes de ressources bioinformatiques et d infrastructure Ecoles scientifiques Tutoriels et formations Cursus universitaires 2
Cursus "Cloud IFB pour les Sciences du Vivant" Description 3 modules (IBI) Durée : 1 jour Lieu : IFB-core, Gif-sur-Yvette (des sessions délocalisées sont également envisageables sur demande) Contenu IBI-1 - Utilisation de base du cloud IFB IBI-2 - Utilisation avancée du cloud IFB IBI-3 - Développement de machines virtuelles modèles (appliances) 3
IBI-1 - U#lisa#on de base du cloud IFB Public : tout public Fréquence : bimestrielle Niveau requis débutant sur le cloud, utilisateur de services bioinformatiques Objectifs Prochaines sessions 3 février 2016 avril 2016 Savoir utiliser le cloud IFB pour des analyses de données biologiques : exécuter ses propres machines virtuelles et transférer ses données entre son poste de travail et le cloud et récupérer les résultats. Contenu: Présentation du cloud IFB ; Présentation du tableau de bord ; Déploiement des machines virtuelles ; Gestion des données avec des disques virtuels, leur gestion ; Les différents types de connexion aux VMs (SSH, Web et bureau à distance). Pratique : utilisation de l appliance Galaxy et d un bureau virtuel Documents: Diapos : Présentation du cloud IFB Fascicule : Utilisation du cloud IFB 4
IBI-2 - U#lisa#on avancée du cloud IFB Public : Utilisateur du cloud Fréquence : trimestrielle Niveau requis Avoir suivi IBI-1 (ou équivalent) et maitriser la ligne de commande Objectifs Savoir déployer une application complexe pour l'analyse intensive de données biologiques de grande taille. Savoir adapter les machines virtuelles disponibles pour répondre à des besoins plus complexes. Contenu: Déploiement d'une application bioinformatique complexe comprenant plusieurs machines virtuelles Installation de logiciels à partir d'archives (codes source ou binaires) ou à l'aide de scripts (approver) Utilisation de conteneurs docker pour l'installation de logiciels bioinformatiques Intégration des ressources de données (génome, annotation...) grâce à l'appliance BiomaJ ou avec d'autres solutions Gestion des données avec des disques virtuels en NFS Documents: Diapos : présentation des fonctionnalités avancées du cloud IFB Fascicule : cas pratique des fonctionnalités les plus fréquemment utilisées Prochaines sessions avril 2016 5
IBI-3 - Développement de machines virtuelles modèles (appliances) Public : Développeurs avec une pratique du cloud IFB Fréquence : semestrielle Niveau requis avoir suivi IBI-2 (ou équivalent) et connaitre le système d'exploitation Linux Objectifs Savoir intégrer un logiciel ou un pipeline bioinformatique dans une machine virtuelle pour une diffusion et mise à disposition sur le cloud IFB. Contenu: Présentation des bonnes pratiques de création d appliance. Présentation des fonctionnalités avancées disponibles dans le cloud IFB : le montage automatique des collections de données publiques de référence, la contextualisation d un portail web, la configuration des disques virtuels pour la conservation des paramètres d un logiciel ou portail Présentation des différents modèles d'intégration: archives (codes source ou binaires), scripts d'installation automatique (approver, puppet), conteneurs (docker). Création de conteneurs docker pour le déploiement de logiciels bioinformatiques Choix et configuration de l'interface pour les utilisateurs (CLI, portail web, bureau virtuel à distance) Rédaction d'une description pour le référencement dans le cloud IFB Documents: Diapos : Présentation des bonnes pratiques de création d'appliance sur le cloud IFB Fascicule : Exemples de cas pratique Prochaines sessions 2-3 mars 2016 (FG) 6
Forma#ons réalisées Intitulé Enseignants Dates Part. Niveau Tutoriels Cloud pour la Biologie Gif-sur-Yvette IFB-core, GenOuest juin 2014 23 débutant Tutoriels Cloud pour la Biologie Rennes GenOuest, IFB-core nov. 2014 20 débutant GRISBi-27 Gif-sur-Yvette IFB-core mars 2015 27 admsys, développeur Ecole Cumulo Numbio Aussois Journées work packages bioinformatique IFB Gif-sur-Yvette Journée IBC Montpellier IFB-core, LRI, Grid5000, FranceGrilles, KerData juin 2015 53 mixte IFB-core juin 2015 15 développeur bioinformatique IFB-core nov. 2015 20 débutant 7
Documenta#on en ligne 8
Cumulo NumBio Le cloud computing pour les sciences du vivant Différents domaines des sciences du vivant produisent des données à haut débit qui nécessitent, pour être exploitées, une infrastructure de recherche bioinformatique à grande échelle qui soit adaptée. confronter les scientifiques et ingénieurs des sciences du vivant, avec leurs besoins d analyse à grande échelle de données biologique hétérogènes, et les scientifiques et ingénieurs des sciences informatiques, avec leurs développements de recherche et les solutions de Cloud existantes pour l intégration des logiciels et des données. faire connaître les réalisations existantes auprès des communautés scientifiques concernées, de donner les moyens à ces communautés d accéder aux infrastructures disponibles mieux cerner leurs besoins au travers des échanges entre intervenants et participants, 1-5 juin 2015, Aussois (France), http://cumulo-numbio.sciencesconf.org
Programme Besoins des sciences du vivant Infrastructures bioinformatiques Prochaine école en 2017 Intégration des données et des outils Recherche en cloud computing Infrastructures de cloud de production Gestion des données dans les clouds Retour d expérience par France-Génomique
Remerciements Comité scientifique Gabriel ANTONIU (INRIA KerData) Christophe BLANCHET (CNRS IFB) Vincent BRETON (CNRS IDG) Christophe BRULEY (CEA irtsv/ BGE/EDyP) Sarah COHEN-BOULAKIA (Université Paris-Sud LRI) Olivier COLLIN (CNRS IFB-GO PF GenOuest) Michel DAYDE (CNRS IRIT) Frédéric DESPREZ (INRIA LIP) Christine FROIDEVAUX (Université Paris-Sud LRI) Christine GASPIN (INRA UBIA & PF GenoToul Bioinfo) Jean-François GIBRAT (INRA IFB) Thierry GRANGE (CNRS Institut Jacques MONOD) Charles LOOMIS (CNRS LAL) Claudine MEDIGUE (CNRS CEA/ Genoscope & PF MicroScope) Claude THERMES (CNRS CGM) Alain VIARI (INRIA) Comité d'organisation Christophe BLANCHET (CNRS IFB) Olivier COLLIN (CNRS IFB-GO PF GenOuest) Jean-François GIBRAT (INRA IFB) Patricia LAPLAGNE (INRA IFB) Bruno SPATARO (CNRS PRABI PF LBBE) INSB et INS2I
Participants 3 % 6 % 3 % 27 % Intervenants 11 Core 7 APLIBIO 15 61 % Chercheur Ingénieur Post-Doc Etudiant Autre NE 4 GO 4 SO 2 GS 2 PRABI 8 Sciences du Vivant Bioinformatique Informatique 27 % 12 % 21 % Homme Femme 79 % 61 %
Evalua#on Le questionnaire d évaluation montre un très fort taux de satisfaction des participants tant pour l organisation générale de l école que pour les thématiques La plupart des participants envisagent comme prolongement de l école des échanges plus approfondis avec des spécialistes, et souhaitent une suite à cette école avec une prochaine édition, qui pourrait être envisagée dès 2016 suivant le même format, mais avec des sessions à destination des biologistes en s attachant par exemple à décrire des cas concrets sur un thème donné. 13
Sou#en aux Forma#ons Théma#ques Apporter aux formations thématiques un soutien en termes de ressources bioinformatiques et d infrastructure Ecoles scientifiques Ecole Aviesan-IFB 2015 Tutoriels et formations ECCB 14, tutorial Analysis of Cis-Regulatory Motifs from High-Throughput Sequence Sets Cursus universitaires Master cours «cis-régulation» (M2), Univ. Marseille Master Bioinformatique (M1), Univ. Rouen Polytech Biotech, Univ. Marseille Master Bioinformatique ADC (M1), Univ. Lyon Master Bionformatique AMI2B (M2), Univ. Paris-Saclay 14
15
Ecole Aviesan-IFB 2015 et Cloud IFB Plusieurs sessions ont utilisé le cloud IFB Introduction à Galaxy, alignement, control qualité et visualisation (39 partic.) Analyse de données ChIP-seq (23 partic.) Atelier Statistiques avec R (23 partic.) Atelier Commandes Unix pour les débutants (24 partic.) Le tutorat également 7 élèves avec 100-300 Go de stockage chacun (1,75 To au total) 500 Go pour les données communes du T.P. 2 appliances dédiées EBA15 Galaxy EBA15 Cours-Unix 0.1 16
Sou#en aux Cursus Universitaires Intitulé Enseignants Dates Part. Appliance dédiée (*) Master cours «cisrégulation» (M2) Univ. Marseille J. van Helden, A. Griffon oct. 2014 45 RSAT Master Bioinformatique (M1) Univ. Rouen S. Gallina jan.-fév. 2015 10 Non BIO ComputeNode Galaxy Polytech Biotech Univ. Marseille Master Bioinformatique ADC (M1) Univ. Lyon Master Bionformatique AMI2B (M2) Univ. Paris-Saclay D. Puthier déc. 2015 38 TAGC Cours-Unix P. Veber déc. 2015 18 Jupyter Notebook D. Gautheret, F. Lemoine, C. Billerey déc. 2015 -jan. 2016 20 COURS M2 Paris- Saclay 2015 * Appliance réalisée par l équipe en charge de l enseignement. 17
Sou#en aux Cursus Universitaires(2) Avantages Utilisation de l infrastructure de production Utilisation des appliances existantes ou si nécessaire, création d un environnement propre aux cours Contextualisées par les enseignants (logiciels et données) Adaptation de la taille des ressources en fonction des TPs Difficultés calcul: pls CPUs, 10s Go RAM stockage: 10s-100s Go Pour les cas spécifiques d outils non disponibles, demande leur installation par l équipe pédagogique Configurations des clés SSH par les étudiants Stockage partagé en écriture entre les élèves Mais soutien de l équipe IFB-core Et envisager la formation des enseignants au préalable. 18
IFB-GRISBI http://www.france-bioinformatique.fr/fr/cloud/training Questions? 19