Les termes du cloud CUMULO NUMBIO 2015 O. COLLIN
Agenda Pe$t glossaire du cloud : termes qui seront u$lisés lors de ce5e école Virtualisa$on CMP Environnement Bioinforma$que Linux Comment les machines Linux fonc$onnent Comment administrer une machine Linux Comment les machines interagissent entre elles Cloud Virtualisa$on CMP Environnement Bioinforma$que Linux
Le cloud du spectacle Cloud Virtualisa$on CMP Environnement Bioinforma$que Linux
Cloud commercial h5p://www.gartner.com/technology/reprints.do?id=1-2g45tqu&ct=150519&st=sb
Cloud NIST Na$onal Ins$tute of Standards and Technology (h5p:// csrc.nist.gov/publica$ons/nistpubs/800-145/ SP800-145.pdf)
Modèle du cloud 5 caractéris$ques essen$elles Self- service à la demande Accès réseau étendu Mutualisa$on des ressources Elas$cité Mesurabilité 3 modèles de service SaaS : So_ware as a Service PaaS : Pla`orm as a Service IaaS : Infrastructure as a Service 4 modèles de déploiement Privé Communautaire Public Hybride
Modèles de service SaaS : So_ware as a Service Possibilité d u$liser les applica$ons proposées par le fournisseur PaaS : Pla`orm as a Service Possibilité de déployer des applica$ons sur l infrastructure du fournisseur IaaS : Infrastructure as a Service Possibilité de «provisionner» des ressources de calcul, de stockage, de réseau sur lesquelles on déploiera des systèmes et des applica$ons
Modèles de déploiement Privé U$lisé par une seule organisa$on Communautaire Dédié à une communauté spécifique Public Accessible par Internet et géré par un prestataire Hybride Public + Privé
SaaS Caractéris$ques Le logiciel est maîtrisé par un fournisseur qui propose cet ou$l à ses clients. Accès web à des logiciels Logiciels gérés de manière centralisée Modèle «one to many» API (Interfaces) perme5ent l intégra$on entre différents Quand? Accès mobile U$lisa$on ponctuelle A5en$on Peu adapté aux temps de traitement importants Localisa$on des données : aspects législa$fs
PaaS Caractéris$ques Services pour développer, tester, héberger et maintenir des applica$ons Architecture mul$- tenant Passage à l échelle grâce à l élas$cité Quand? Plusieurs développeurs travaillant sur un projet commun
IaaS Caractéris$ques Les ressources de calcul, de stockage et le réseau sont maîtrisées par un fournisseur de service qui propose une offre à la demande. Le client peut déployer une infrastructure Ressources proposées en tant que service Permet l alloca$on dynamique de ces ressources Coût variable Quand? Quand la demande est très irrégulière Quand on n a pas les sous pour inves$r dans une infrastructure A5en$on Aspects légaux
SaaS U$lisateurs finaux PaaS Développeurs d applica$ons IaaS Ges$onnaires d infrastructures
Sommes nous dans l illégalité? h5ps://docs.google.com/viewer? url=paten$mages.storage.googleapis.com/pdfs/us20130275486.pdf
VirtualisaHon Cloud Virtualisa$on CMP Environnement Bioinforma$que Linux
VirtualisaHon Faire fonc$onner, sur une seule machine, un ou plusieurs systèmes d exploita$on comme un logiciel.
VirtualisaHon Faire fonc$onner, sur une seule machine, un ou plusieurs systèmes d exploita$on comme un logiciel. Intérêts : U$lisa$on op$male des machines Déploiement facilité Environnement de test et d enseignement Isola$on Aspect dynamique
VirtualisaHon App App Applica$on OS Matériel OS Matériel Système d exploita$on Hyperviseur Matériel Proc. RAM Stock. Rés. Matériel Proc. RAM Stock. Rés.
CMP: cloud management plajorms Cloud Virtualisa$on CMP Environnement Bioinforma$que Linux
FoncHonnalités Ges$on d un ensemble hétérogène de ressources Accès simplifié pour les u$lisateurs Ges$on de la sécurité Supervision de l alloca$on des ressources
CMP : 3 couches de fonchonnalités La couche d interface ou de «ges3on de la demande» : c est elle qui interagit directement avec l u$lisateur, lui indique les services disponibles ainsi que ceux déjà approvisionnés, lui permet de choisir un service et gère le cycle d approba$on associé à ce5e demande. La couche de demande est axée sur les services publiés. La couche d orchestra3on ou «d assemblage/livraison» : elle va décomposer le service requis en plusieurs éléments cons$tu$fs, garan$r que les ressources sont disponibles pour chaque sous- élément, et par conséquent pour assurer le service final. Ensuite, ce5e couche déclenche et gère les processus d approvisionnement. Il est important de noter qu une couche de design est requise afin de pouvoir définir les services: ici vous allez modéliser les offres qui seront exposées dans le portail. Le designer doit être intui$f, graphique, facile d u$lisa$on. Le modèle construit doit être lisible, évolu$f, maintenable, rapide à fabriquer. C est la couche d orchestra$on qui va interpréter le modèle de service. La couche de fourniture des ressources ou «d accès universel» fonc$onne de façon étroite avec la couche d orchestra$on pour lui fournir toutes les ressources requises par chaque élément de service. Cela comprend des serveurs, du stockage, des réseaux, mais également des clés de licence, des adresses IP, des éléments de réseau, etc. h5p://www.cloud- experience.fr/exercice- de- dissec$on- dune- architecture- de- reference-
Quelques exemples Open source Eucalyptus Openstack OpenNebula StratusLab (sinon Christophe il est mor$fié ;- ) Etc. Propriétaires Vmware Flexiant Microso_ Etc.
Cycle de vie (simplifié) User Create Pending Prolog deploy Boot Running Suspend Save Shutdown h5p://docs.opennebula.org/4.8/_images/states- simple.png
Marketplace
Environnement bioinformahque Cloud Virtualisa$on CMP Environnement Bioinforma$que Linux
Cloud Mise à disposi$on d une infrastructure pour l u$lisateur Ges$on «autonome» de ce5e infrastructure. Cas de l architecture bioinforma$que.
Données Résultats «Bio» «Bioinfo» «Info»
Qu est- ce qu un environnement bio- informahque? Quelque chose qui offre la possibilité d analyser ses données Environnement informa$que Système d exploita$on Ou$ls et données de référence Possibilité de développer de nouveaux ou$ls ou de nouveaux services
Environnement bioinformahque Données Logiciel Interface Calcul
Environnement bioinformahque Données Logiciel Interface U$lisateur Calcul Machines
Environnement bioinformahque Ligne cde Banques BioMAJ Données Logiciel Interface Mobyle U$lisateur Calcul Galaxy PHP DRMAA Machines
Architecture bioinformahque Stockage données communes Stockage données u$lisateur Calcul Interface
Thompson et Ritchie dans les années 70 Linux Cloud Virtualisa$on CMP Environnement Bioinforma$que Linux
CaractérisHques UNIX : Mul$tâche, mul$u$lisateurs Système de fichiers hiérarchique Orienté réseau Plusieurs shells (interface de commandes) Choix de l interface graphique Nombreuses commandes combinables Compilateur C et autres langages Environnement de choix pour une architecture bioinfoma$que
Les acteurs Administrateur système : mise en œuvre et maintenance du système connaissance et suivi du matériel installa$on, configura$on et surveillance du système installa$on, configura$on et surveillance des applica$ons sauvegardes/restaura$ons service/assistance u$lisateurs «root» U$lisateur possédant les privilèges pour administrer la machine. Lancer certains processus Accéder à tout le système de fichier
Réseau UNIX est un système naturellement orienté réseau le protocole TCP/IP présent sur tout système UNIX est un standard majeur dans le domaine Internet est basé sur TCP/IP Les principales ac$vités réseau transfert de données (_p, rcp, scp) échange d'informa$on (mail) connexion à distance (ssh) consulta$on d'informa$on (web)
Adresse IP Toute machine doit disposer d une adresse IP Adresse obtenue grâce à un serveur DHCP Connaître l adresse IP de la machine permet de s y connecter Permet de configurer certains services DNS permet de nommer les machines en établissant une correspondance entre le nom et l IP
Ports réseau Les services réseaux u$lisent des ports Un port est caractérisé par un numéro Exemples : Port 80 : h5p Port 22 : ssh
Cluster et geshon de tâches Une machine n est pas suffisante pour réaliser l ensemble des travaux. Solu$on : mise en place d un cluster Ges$onnaire de tâches pour assurer la répar$$on des travaux sur l ensemble des nœuds. SGE Torque/PBS LSF OAR Slurm Etc.
Ex : SGE ARCo Execution Daemon qsub qrsh qlogin qmon qtcsh QMaster qmaster Execution Daemon Execution Daemon App DRMAA Scheduler Shadow Master Execution Daemon Sun Proprietary/Confidential: Internal Use Only
Stockage et cycle de vie de la VM Arrêt Démarrage Données générées Récupéra$on des données Mise en place des données Données d entrées Exécu$on des traitements Stockage persistant
NFS Network File System Système de fichiers distribué Serveur : met à disposi$on des répertoires et des systèmes de fichiers (export) Client : «monte» (mount) les répertoires et systèmes de fichiers partagés dans son propre système de fichiers U$lisa$on transparente pour l u$lisateur
NFS h5p://www.redhatlinuxsysadmin.com/redhat- linux- system- administra$on/module5/network- file- system.php
NFS : cas d uhlisahon Partage des banques ou des logiciels Machine BioMAJ Nœud de calcul Banques Export NFS Banques
Stockage Bloc Lié au fonc$onnement physique des médias de stockage, les disques en par$culier. Chaque bloc est iden$fié par un système de coordonnées : cylindre, plateau, piste, secteur. Fichier Ce qui est manipulé par les programmes, iden$fié par un nom et un chemin : / nom_de_machine/disque/dossier/nom_de_fichier Objet les systèmes de stockage objet traitent «d objets», organisés dans un conteneur appelé bucket, qui con$ennent les données non structurées.
Stockage objet Pas de hiérarchie structurée Les objets localisés dans un espace d adressage plat Métadonnées associées aux objets Systèmes objet Atmos (EMC) Amazon S3 (AWS) Windows Azure Storage Swi_ (OpenStack Swi_) Intégra$on à des applica$ons existantes (backup, archivage analy$que ).
h5p://www.lemagit.fr/conseil/les- avantages- de- lu$lisa$on- dun- systeme- de- stockage- objet
Conclusion Cloud Virtualisa$on CMP Environnement Bioinforma$que Linux