SysFera Passage d applications en SaaS Benjamin Depardon CTO@SysFera
SysFera Technologie 2001 Création 2010 Spin Off INRIA Direction par un consortium d investisseurs 12 personnes 75% en R&D Implantation Française 80% académique
Notre mission «Simplifier l accès et l administration i ti d applications complexes dans du Cloud hybride»
Introduction Des besoins applicatifs de plus en plus importants t et variés Explosion du nombre et du volume de données, Big Data Moins coûteux de louer de la capacité de calcul et de stockage que de monter un centre de calcul Simplicité d utilisation Critère utilisateur le plus important Infrastructure cachée à l utilisateur We will probably see the spread of computer utilities, which, like present electric and telephone utilities, will service individual homes and offices across the country Professeur John McCarthy, 1961!!!
Beaucoup de buzz! Google Trends
SaaS? Est ce que le SaaS se prête aux applications de calcul scientifique? Comment avoir des applications non web en SaaS? Sur quelles infrastructures?
ANALYSES BIOINFORMATIQUE
Evolution des études en bioinfo. Variété iétédes analyses Séquences (ADN, protéines) Structurales (structure 3D) Réseaux (interactions gènes, protéines, cellules, organismes) Statistiques (populations) Explosion des données à analyser Nouvelles méthodes de séquençage très haut débit Permet de collecter des données à l échelle de la cellule entière Catalogage exhaustif
Analyses bioinformatiques Beaucoup d analyses sont parallélisables (data parallel) Une analyse combine un ensemble de programmes différents et l intégration de données hétérogènes Diversité des langages de programmation utilisés (perl, python, java,...) Enormément de logiciels pour réaliser les mêmes traitements
Constat Des besoins grandissants : puissance de calcul, l parallélisation, gestion de données, algorithmique adaptée, Un besoin de transparence dans l'utilisation des ressources informatiques Un besoin de cloisonnement des utilisateurs, des données Des plates formes disponibles et des logiciels matures pour les gérer Le mode SaaS (Software as a Service) s'impose simpose maintenant même pour les applications scientifiques
PLATEFORME E BIOTHON
E Biothon Une plate forme pour accélérer les recherches en biologie, santé et environnement
Infrastructure Deux racks de Blue Gene P Puissance en crête de 28 téraflops Chaque rack compte 1024 nœuds de 4 cœur Chaque nœud possède 2 gigaoctets de mémoire RAM Une capacité de stockage de 200 téraoctets Deux modes de fonctionnement Standard High Throughtput Computing
SysFera INRA 11/02/2014 d (d ) Read syst (disseq) Alain Franc, INRA Bordeaux
PhyML Un outil de comparaison des espèces du vivant, efficace, rapide et précis. Basé sur le principe du maximum de vraisemblance. L'algorithme calcule l la probabilité bilité que les données correspondent tà plusieurs modèles d'arbres d'évolution darwinienne, et le résultat est le modèle ayant la plus haute probabilité. Original algorithm : (a) A first tree is built by a fast distance based algorithm (BIONJ). (b) The model parameters (e.g., gamma) are optimized and periodically updated. (c) The tree is iteratively refined until convergence: (1) compute all possible changes; (2) apply a proportion of these changes; (3) check that the modified tree is better than the current tree, otherwise divide by 2 and return to (2). (d) Return the current tree. La publication de PhyML est la plus citée au monde en environnement-écologie depuis 2007 (cf. Science Watch)
SysFera DS Gestion des ressources et des applications Gestion des données Visualisation à distance Monitoring et refacturation
Applications non interactives Mise à disposition d applications Remplissage uniquement des paramètres applicatifs Paramètres de soumission avancés (machine, nb nœuds, walltime) Fichiers de sortie + stdout/err
Gestion des données Vision de plusieurs systèmes de fichiers distants Actions classiques sur les fichiers et dossiers (mv, rm, stat, chmod ) Transferts entre clusters Download/upload
Données Dans SysFera DS Basé sur un système de fichiers POSIX Droits Linux des utilisateurs (rwx, groups) Pour E Biothon Comptes partagés entre utilisateurs Par P projet jt Données partagées entre tous les utilisateurs d un même projet
E Biothon & SysFera DS Une plateforme ltf et un portail tiluniques pour Mettre à disposition en SaaS des applications de bioinformatique Gérer les données à distance Exécuter les analyses Gestion par projets Cloisonnement des utilisateurs, des applications Suivi de l utilisation, permettant une «refacturation» des usages 1 ETP dédié à l administration, à l optimisation et au portage des applications Ouvert à d autres projets
SYSFERA DS
SysFera Confidential SysFera DS HTML5 Browser Mono cluster Multi cluster Cloud Vishnu
Avantages administrateurs Simplicité ité de déploiement Rien à installer côté utilisateur 1 portail, 1 DB et 1 démon / cluster Non intrusif/exclusif Simplicité d administration Basé sur votre LDAP & comptes utilisateurs Abstrait les différents batch schedulers/clouds SLURM, SGE, Torque, PBS Pro, LoadLeveler, LSF Cloud : OpenStack, OpenNebula (DeltaCloud) Visualisation distante encapsulée dans le flux http(s) Sécurisé de bout en bout
Applications interactives Réservation de plage horaire de visu distante Lancement automatique des applications Partage de la session entre plusieurs collaborateurs
INFRASTRUCTURES
Large choix d infra. de calcul l Régionales et nationales Mesocentres GENCI/PRACE/ Datacenters locaux Cloud AWS [Numergy & CloudWatt]
Un partenaire de proximité pour la bioinformatique sécurisée dans le Cloud Accès à la demande à des applications de Bio Informatique dans le Cloud Solution de portail SysFera DS Partenaire infrastructure Cloud : Groupe CFI Acteur régional leader en intégration, infrastructure IT et Cloud 160 personnes dédiées à plus de 1400 clients en contrats managés Un datacenter Green IT dernière génération en Rhône Alpes Innovant, éco durable, hyper sécurisé En cours d obtention de l agrément Santé
Conclusion Un besoin grandissant d applications scientifiques en SaaS SaaS Virtualisation ti Modification du code des applications Sécurisation des données Réels besoins bien étudier la pertinence du «tout sécurisé» Des infrastructures à la pelle