Présentation de Biosphère Pour l utilisation du cloud IFB Sandrine Perrin & Bryan Brancotte Institut Français de Bioinformatique - IFB French Institute of Bioinformatics - ELIXIR-FR CNRS UMS3601 - Gif-sur-Yvette - FRANCE
Sommaire I. Introduction I.1. Présentation IFB I.2. Infrastructure II. Utilisation II.1. Catalogue RAINBio ; II.2. Inscription & création d un compte ; différents profils & droits associés ; II.3. Utilisation d une appliance : lancement machine ou mode cluster ; tableau de bord ; accès aux machines ; II.4. Bureau virtuel ; II.5. Gestion des données ; III. Démos 2
Présentation IFB & le cloud 3
IFB - Institut Français de Bioinformatique French distributed infrastructure for lifescience information Mission : to make available core bioinformatics resources to the life science research community. To provide support for national biology programs To provide an IT infrastructure devoted to management and analysis of biological data To act as a middleman between the life science community and the bioinformatics/ computer science research community ELIXIR French Node The European distributed infrastructure for life-science information To optimize the interactions and coordination between the national level and ELIXIR and other ESFRI infrastructures in biomedical and environmental field, To promote consistency and complementarities between the components offered by the ELIXIR French node and those of other European nodes 4
IFB s e-infrastructure Mission : to provide core bioinformatics resources to the life science research community. To set up a French IT infrastructure (cloud) devoted to management and analysis of biological data To provide hardware, data collections and bioinformatics tools To collaborate with international infrastructure (ELIXIR) Current resources A national hub : IFB-core IT resources hosted at CNRS IDRIS SC center A network of regional centers 36 bioinformatics platforms - 17,000 cores - 10 PB 4 running clouds Create a federation of clouds for life sciences C C C C 5
Fédération Biosphere Fédérer les cloud IFB 4 existants Besoins 7 PF volontaires pour déployer en 2016-2017 gestion commune des utilisateurs (edugain) compatibilité des images (VM/container) déploiement multi-cloud (SlipStream/ NuvLa) gestion du réseau et de la sécurité sur plusieurs sites Solutions attendues des projets CYCLONE et ELIXIR/ EXCELERATE Clouds actuels Clouds prévus 6
Introduction 7
Introduction Le cloud IFB passe en version de production, avec Lamarck ; mise à disposition de plus de ressources en CPU/RAM, espace de stockage ; changement dans le déploiement des machines virtuelles : appliance comprenant un/plusieurs outils de traitements des données biologiques nécessitant une ou plusieurs machines ; déploiement automatique d un cluster, configurable en nombre de noeuds de calcul ; construction des appliances à partir de recettes de déploiement avec le manager SlipStream ; gestion des données dans les machines virtuelles, actuellement sans passer par des disques virtuels. 8
Caractéristiques de l infrastructure SITE Compute #cores Storage #TB RAM #GB Largest VM Technology Location PILOTE IFB-core 2014-16 200 (+160) 50 (+96) 2,000 (+1) 20c 256GB StratusLab CNRS-IDRIS, Paris Migration LAMARCK 2017-02 5,000 1,000 40,800 128c 3TB OpenStack CNRS- IDRIS, Paris 2017 (fin) 10,000 2,000 - - OpenStack CNRS-IDRIS, Paris 9
Migration du pilote vers Lamarck Passage du pilote sous StratusLab vers Lamarck sous OpenStack : Comptes utilisateurs ne seront pas transférés sur BioSphère, les utilisateurs doivent se ré-inscrire ; Catalogue d appliances RAINBio contient l ensemble des appliances actives actuellement sur la version pilote ; Données des disques virtuels non récupérées automatiquement ; Instances lancées sous StratusLab ne seront pas transférées. Pilote StratusLab fonctionnera en parallèle de Lamarck Le temps nécessaire à la transition. 10
Architecture BioSphère nuv.la LAMARCK L utilisateur crée un compte sur BioSphère, qui est propagé et sera commun à Slipstream et OpenStack. https://biosphere.france-bioinformatique.fr/ 11
Définitions appliance : une machine, un ensemble de machines ou un cluster dédiés à un traitement, un outil, une analyse ; chaque appliance a une configuration par défaut ; elle est déployée automatiquement sur le cloud de l IFB, elle peut être configurée par l utilisateur en spécifiant : les ressources : CPU/RAM et espace de stockage pour une machine seule ; le nombre de CPU nécessaires, dont découle automatiquement le nombre de noeuds de calculs utiles ; déploiement : instanciation de la ou des machines virtuelles définies dans l appliance et configuration des machines pour assurer le service défini par le développeur ; broker : gestionnaire multi-cloud (SlipStream), utilisation de la version maintenue par nuv.la, permet de créer des recettes de déploiement d application contenant une ou plusieurs machines virtuelles fonctionnant conjointement. Le déploiement se lance uniquement sur le cloud de l IFB, à terme les cloud de Biosphère seront ajoutés pour augmenter les ressources mises à disposition de façon transparente pour l utilisateur ; provider : fournisseur d infrastructure de cloud (OpenStack). 12
Cloud IFB https://biosphere.france-bioinformatique.fr 13
Interface BioSphère Biosphère est le portail central du cloud de l IFB. Il comprend : le tableau de bord des appliances lancées, en cours ou arrêtées ; le catalogue des ressources du cloud RAINBio : - rechercher les appliances et les outils disponibles ; - consulter la fiche détaillée ; le navigateur de l ontologie EDAM, utilisée pour indexer toutes les ressources ; Nouveauté : interface plus intuitive, plus riche et avec plus de fonctionnalités. https://biosphere.france-bioinformatique.fr/ 14
Catalogue RAINBio 15
Application & outils 16
Catalogue accessible hors connexion : onglet Appliances : ensemble des appliances visibles par tous ; onglet Tools : ensemble des outils présents sur au moins une appliance onglet Topics : sujets traités par au moins une appliance ou un outil, la sélection est faite à partir d EDAM. Croisement des trois types de données dans chaque onglet. 17
Indexation EDAM Interface dynamique de recherche dans l ontologie EDAM, ontologie dédiée à la bioinformatique développée dans le cadre d Elixir ; 4 catégories : DATA, FORMAT, OPERATION, TOPIC; une fiche détaillée pour chaque terme ; les TOPICS servent à indexer toutes les ressources du catalogue RAINBio. Disposer d une solution commune entre différents catalogues de ressources en informations : bio.tools (Elixir) ; Bioshadock (Genouest) ; https://bio.tools http://docker-ui.genouest.org/app Import régulier des données mises à jour et possibilité de soumettre des mises à jour ; https://www.elixir-europe.org/ 18
Arborescence du terme sélectionné Fiche détaillée avec accès à la fiche dans l ontologie EDAM 19
Parcours dans l ontologie terme sans descendant terme sélectionné, accès à la fiche terme racine d un sous-arbre sélection & déploiement / masquage 20
Connexion au Cloud IFB 21
Création d un compte Avoir un compte sur le cloud IFB : être membre de la communauté des sciences de la vie; soit son organisme appartient à EduGAIN : l identification se fait automatiquement via la fédération d identité à partir de son email académique, c est la solution par défaut ; sinon, en passant par une inscription classique avec un formulaire ; Créer un compte utilisateur par défaut : accès à l ensemble des appliances validées : gérer les données ; lancer des traitements ; personnaliser les machines virtuelles ; pour créer de nouvelles appliances, il faut avoir un compte développeur. 22
Inscription Toute personne de la communauté française travaillant dans le domaine des sciences de la vie peut obtenir un compte sur le Cloud de l IFB. 1 2 Connexion : - soit avec un compte edugain (*), voie préférentielle ; - sinon avec un compte local. 1 Formulaire de demande de compte, validée par un administrateur du cloud. 2 (*) edugain est la fédération d identité européenne permettant l authentification auprès de différents services. La fédération RENATER a été mise en place pour l ensemble des universités et des instituts publics en France. http://www.geant.org/services/trust_identity_and_security/edugain 23
Connexion via edugain Accès au formulaire d inscription, pré-renseigné avec l email. Accès à votre compte sur Biosphère Sélectionner votre organisme. Le compte est directement accessible, mais le profil doit encore être complété. 24
Connexion via compte local Demande de création de compte Mise à jour des informations de son compte. Accès à son compte Après validation par un administrateur. 25
Profil Informations communes à tous. Pour l ouverture d un nouveau compte, il faut renseigner son affiliation et les coordonnées du validateur. 26
Déploiement d appliances 27
Biosphère Lancer le déploiement d une appliance qui représente soit : une machine virtuelle seule avec la configuration par défaut ou personnalisée ; un cluster : avec une taille définie par défaut (nombre de master et de noeuds de calcul), ou en précisant le nombre de cores utiles, calcul automatique du nombre de noeuds de calcul nécessaires ; plusieurs machines fonctionnant ensemble pour réaliser le service prévu. Consulter le tableau de bord des déploiements lancés (en cours et terminés). 28
Déploiement d une machine virtuelle 1/ Sélection & lancement dans le catalogue RAINBio lancement de l appliance avec la configuration par défaut, définie par le propriétaire de l appliance. Aucune configuration requise. II/ Visualisation du déploiement dans le tableau de bord 29
Déploiement d une machine virtuelle personnalisée consulter le tableau de bord Personnalisation du déploiement d une appliance : - nom du déploiement ; - configuration du nombre de cores /CPU nécessaires. 30
Déploiement d un cluster avec la configuration par défaut. lancement de l appliance avec la configuration par défaut, définie par le développeur de l appliance. Valable pour une machine virtuelle seule ou un cluster. exemple : cluster 1 master, 3 noeuds de calcul & 1 serveur VPN. 31
Déploiement d un cluster, configuration personnalisée test Personnalisation du déploiement d une appliance de type cluster. Le nombre de noeuds de calcul est défini en fonction du nombre de cores demandés et de la configuration par défaut donnée par le développeur. 32
Tableau de bord 33
Machine virtuelle nom de l appliance 1 machine virtuelle CPU Etat du déploiement RAM Storage code couleur ou Cluster avec 3 VMs CPU RAM Storage Cluster 34
Liste des déploiements en cours ABORDTED 1 ERROR 2 RUNNING 3 1 2 Cluster, échec du déploiement. L appliance a été supprimée. Il est possible de sauvegarder la configuration dans ses favoris Cluster, échec du déploiement. 3 Machine virtuelle en fonctionnement, connexion en ssh. 35
Liste des 5 derniers déploiements terminés. ABORDTED ABORDTED STOPPED Déploiement sauvé en favori Pour chaque déploiement terminé : - l état ; - un ID unique; - le nom de l appliance, voir en plus : - le nom donné par l utilisateur au déploiement ; - la cause de l échec du déploiement ; - les dates de début et fin ; - les caractéristiques : nombre de machines virtuelles, nombre de cores, RAM, espace disque. Tous les déploiements du compte 36
Fiche détaillée d un déploiement https://biosphere.france-bioinformatique.fr/cloud/deployment/208/ 37
Gestion des favoris lancer l appliance relancer l appliance à l identique Sélectionner un favori se fait : désélectionner un favori - juste après la suppression du déploiement dans le tableau, l icône de suppression est remplacée par une étoile. La ligne sera supprimée au prochain rafraichissement du tableau ; - dans le tableau des déploiements terminés ; 38
Connexion aux machines virtuelles 39
Connexion à une appliance HTTP Bureau Virtuel * SSH edugain SSH * sur appliance configurée pour avoir un bureau virtuel 40
Démo Application web 4
Bureau virtuel Le bureau virtuel apporte une interface graphique à une machine virtuelle De quoi avezvous besoin? - sur votre machine local un client X2Go et un serveur X11 - sur le cloud une appliance comprenant un serveur NX : BioDataCloud IGV, Proteomics, ImageJ, R studio 42
Utilisation de X2Go Pour les personnes sous Windows renseigner en plus ce champs. 43
Utilisation X2Go (2) Nouvelle session liste des sessions Session en cours d exécution lancement double clic accès aux préférences de la session Session fermée, quitter la fenêtre en cliquant sur Cancel Il n y a pas de password à saisir, le connexion se fait en SSH. 44
Utilisation d une machine Virtuelle Compte utilisateur par défaut : un compte root : avec les droits admin; un bureau de type KDE; Compte utilisateur spécifique : un compte ego, qui n a pas les droits en écriture dans tous les dossiers; un bureau de type GNOME. Exemple : bureau virtuel sous KDE, connexion en tant que root Commande pour fermer la session, le bureau virtuel se ferme. Via X2Go elle peut être relancée. Commande pour fermer la machine virtuelle. Dans le cloud IFB, une machine arrêtée n est plus accessible. Cela revient à faire un Shutdown/Kill depuis le tableau de bord. accès aux ressources et logiciels installés 45
Connexion SSH 46
Dans votre compte : rubrique Settings! clé SSH: La créer (cf. doc.) attention aux retours à la ligne lors du copier-coller Saisir plusieurs clés: en les séparants par un ; et un retour à la ligne. Validité des clés: uniquement pour les machines déployées après la mise à jour ; les machines déjà créés ne seront plus accessibles si vous changez la clé. 47
Gestion des données 48
Echanger les données avec les VMs Solution propre à l'application Utilitaire de transfert de fichiers Cyberduck (Filezilla) En ligne de commande SSH 50
Gestion des données Pas de création de disque virtuel dans la version actuelle de BioSphère ; Chaque appliance créée sous SlipStream possède son propre espace de stockage ; Pour disposer d un espace partagé entre plusieurs machines virtuelles, il faut passer par une appliance NFS qui peut partager son espace disque entre plusieurs machines. La configuration se fait en ligne de commande (et automatiquement avec le mode cluster). 51
Dépôt BioMaj VM Bio Data VM 1 L appliance BioData permet de partager vos données de références. databanks data sharing VM 2 VM n L accès aux banques de données publiques de référence gérées par BioMaj est automatique pour toutes les appliances. /ifb/databases http://biomaj.genouest.org/ 52
Démos Vidéos du projet Cyclone sur le déploiement d un cluster de calcul avec SlipStream avec identification edugain. https://www.youtube.com/watch?v=6bam17724zo 53
Merci pour votre attention En cas de problème sur le cloud de l IFB, contacter le support : support@france-bioinformatique.fr IFB acknowledges funding by the call Infrastructures in Biology and Health in the framework of the French Investments for the Future (ANR-11- INBS-0013) initiative, and EU H2020 projects CYCLONE (644925), EXCELERATE (676559) and EGI-Engage (654142). 54