Conception et contrôle des SMA tolérants aux fautes

Documents pareils

La plate-forme DIMA. Master 1 IMA COLI23 - Université de La Rochelle

Conception des systèmes répartis

Contributions à l expérimentation sur les systèmes distribués de grande taille

MEAD : temps réel et tolérance aux pannes pour CORBA

Construction modulaire d'agents et de systèmes multi-agents adaptatifs en DIMA

Introduction aux applications réparties

Systèmes et algorithmes répartis

Solutions informatiques (SI) Semestre 1

Implantation des protocoles de communication FIPA dans la plate-forme GAMA

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Projet ViSaGe : implémentation de l administration et du monitoring de ViSaGe (Virtualisation du Stockage appliquée aux Grilles informatiques)

Système d administration autonome adaptable: application au Cloud

DG-ADAJ: Une plateforme Desktop Grid

Prise en compte des ressources dans les composants logiciels parallèles

Architecture de la grille

Objectif. Participant. Prérequis. Pédagogie. Oracle Enterprise Manager 10g Grid Control Rel 2. 5 Jours [35 Heures]

Augmenter la disponibilité des applications JEE grâce au clustering : Le projet open source JShaft

Ordonnancement sous contraintes de Qualité de Service dans les Clouds

JADE : Java Agent DEvelopment framework. Laboratoire IBISC & Départ. GEII Université & IUT d Evry nadia.abchiche@ibisc.univ-evry.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Hypervision et pilotage temps réel des réseaux IP/MPLS

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Modélisation multi-agents - Agents réactifs

4.2 Unités d enseignement du M1

Resolution limit in community detection

LICENCE : INFORMATIQUE GENERALE

Software Engineering and Middleware A Roadmap

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

Le cloud computing au service des applications cartographiques à haute disponibilité

Diagrammes de Package, de déploiement et de composants UML

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

Programmation d'agents intelligents Vers une refonte des fils de raisonnement. Stage de fin d'études Master IAD 2006

Tolérance aux Fautes des Grappes d Applications J2EE. Applications Internet dynamiques

Rapport d activité. Mathieu Souchaud Juin 2007

Revue d article : Dynamic Replica Placement for Scalable Content Delivery

Equilibrage de charge (Load

Cours de Génie Logiciel

Maarch Framework 3 - Maarch. Tests de charge. Professional Services. 11, bd du Sud Est Nanterre

Parcours en deuxième année

Vérifier la qualité de vos applications logicielle de manière continue

GRIDKIT: Pluggable Overlay Networks for Grid Computing

CEG4566/CSI4541 Conception de systèmes temps réel

De la conception participative de systèmes multi-agents. à la mise en place de coopérations humain non-humain

FORMATION CN01a CITRIX NETSCALER

Chapitre 9 : Informatique décisionnelle

Comment déployer l'active Directory sur Windows Server 2008 R2. Microsoft France Division DPE

Introduction aux systèmes temps réel. Iulian Ober IRIT

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

JF SMA'14. A3 - Agent Anytime Anywhere. une plateforme à agents distribués Oct l'expertise middleware.

Java - la plateforme

Tout le matériel (actif) qui sert à produire: boulons, capteurs, automates, vérins, câblage, éclairage, etc.

Plan du cours. Autres modèles pour les applications réparties Introduction. Mode de travail. Introduction

Eléments de spécification des systèmes temps réel Pierre-Yves Duval (cppm)

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Administration d'infrastructures logicielles avec Jade

Apprentissage Automatique

JOURNEES SYSTEMES & LOGICIELS CRITIQUES le 14/11/2000. Mise en Œuvre des techniques synchrones pour des applications industrielles

Validation temporelle de réseaux embarqués critiques et fiables pour l automobile

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Tests de montée en charge & Haute disponibilité

Un système multi-agents sensible au contexte pour les environments d intelligence ambiante

1. Introduction à la distribution des traitements et des données

Ebauche Rapport finale

Analyse de performance, monitoring

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language

Plan de notre intervention 1. Pourquoi le test de charge? 2. Les différents types de tests de charge 1.1. Le test de performance 1.2.

Découverte et analyse de dépendances dans des réseaux d entreprise

Cours 20411D Examen

Présentation d'un MOM open-source

Disponibilité et fiabilité des services et des systèmes

Programmation parallèle et distribuée (Master 1 Info )

Fouillez facilement dans votre système Big Data. Olivier TAVARD

27/11/12 Nature. SDK Python et Java pour le développement de services ACCORD Module(s)

Grid Technology. ActiveMQ pour le grand collisionneur de hadrons (LHC) Lionel Cons Grid Technology Group Information Technology Department

Systèmes Multi-Agents : Modélisation et simulation informatique de comportements collectifs. Chapitre III

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Master IAC Philippe Caillou DÉVELOPPEMENT DE SMA. Cours 1b

Intergiciel - concepts de base

Optimisation for Cloud Computing and Big Data

Pourquoi l apprentissage?

Sécurité logicielle. École de technologie supérieure (ÉTS) MGR850 Automne 2012 Automne Yosr Jarraya. Chamseddine Talhi.

Objectif : Passer de l analyse métier et fonctionnelle à la définition des applications qui

DOSSIER DE CANDIDATURE À UN POSTE DE MAÎTRE DE CONFÉRENCE

Master Informatique Aix-Marseille Université

Agrégation de liens xdsl sur un réseau radio

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Conditions : stage indemnisé, aide au logement possible, transport CEA en Ile-de-France gratuit.

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Conception de réseaux de télécommunications : optimisation et expérimentations

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Introduction à la conception de systèmes d information

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Parallélisme et Répartition

Introduction et contexte L I S. Jean Arlat EDF. Electricité de France technicatome. LAAS et LIS THOMSON-CSF

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

CORBA. (Common Request Broker Architecture)

Transcription:

Conception et contrôle des SMA tolérants aux fautes Une plate-forme multiagents tolérante aux fautes à base de réplication Nora FACI

Contexte SMA large échelle Nombre important d agents Ressources éloignées les unes des autres Types de pannes [Powell 91] Franches Omissions Temporelles Byzantines 2

Etat de l art Approches correctives Sentinelles [Hagg 96] Détection de déviation de fonctionnalités Diagnostic + réparation TAEMS [Horling et al. 00] Détection de fautes organisationnelles Diagnostic + auto- organisation Insuffisances Solutions ad hoc, coûteuses et difficiles à mettre en oeuvre 3

Etat de l art Approches préventives Brokers [Kumar et al. 00] Aucune détection + redondance de services Réplication d agents [Fedoruk et Deters 02] Détection + redondance d agents Insuffisances Solutions ad hoc Stratégies de réplication définies a priori par le concepteur 4

Problématique Les solutions existantes sont ad hoc et mal adaptées aux SMA large échelle Elles ne profitent pas des solutions proposées par la communauté des systèmes répartis (détection de pannes, réplication ) 5

Problématique Objectif Concevoir et contrôler des SMA tolérants aux fautes Une nouvelle plate-forme multi-agents tolérante aux fautes basée sur la réplication (DimaX) Hypothèses Ressources dynamiques Agents «adaptatifs» Aucune hypothèse sur l architecture interne des agents qui sont cognitifs FIPA- ACL comme langage de communication entre les agents Pannes supportées par DarX : franches DIMA pour le développement des SMA 6

Sommaire Contrôle adaptatif de réplication Réplication Criticité Architecture de monitoring Gestion de ressources Implémentation et validation DimaX Expérimentations Conclusion 7

Réplication Méthode de base pour la sûreté de fonctionnement Définition : Un composant logiciel répliqué est défini comme un composant logiciel qui possède une représentation sur deux ou plusieurs machines. Caractéristiques des applications existantes criticité statique des composants contexte statique de l'environnement (taux de pannes, délai de recouvrement de l'application, ) Le nombre de réplicas et la stratégie de réplication sont explicitement et statiquement définis par le concepteur avant l'exécution 8

Réplication Caractéristiques des SMA quelques problèmes distribution large échelle = coûts prohibitifs importance d un agent (criticité) est dynamique environnement dynamique Notre solution : adaptation dynamique de la gestion de pannes Le framework (DarX) : réplication dynamique Un contrôle adaptatif de la réplication

Réplication et SMA Mécanisme dynamique et adaptatif de réplication Quels agents répliquer et quand? Combien de fois? Où?

Criticité Hypothèses mécanismes de réplication automatiques quelques données du concepteur de l application peuvent être nécessaires (les rôles, leur criticité, ) réplication statique et/ou dynamique le SMA n est pas modifié, il est enrichi pour permettre d observer le comportement des agents et déterminer leur criticité criticité des agents dépend de deux types d informations informations système (niveau système) : temps CPU, charge de communication informations sémantiques (niveau SMA)

Criticité Informations sémantiques dépendent du domaine d application et du paradigme choisi Un SMA est principalement caractérisé par les structures organisationnelles (rôles, réseaux d interdépendances, réseaux d accointances, ) Deux approches rôles [Selmas 03] [AAMAS 02] [MMAS 05] interdépendances des agents [AAMAS 04] [Selmas 05]

Criticité - interdépendances Graphe d'interdépendances à chaque agent est associé un nœud l'ensemble des nœuds forme un graphe orienté chaque arc est caractérisé par un poids w ij Hypothèse la criticité d un agent dépend de ses interdépendances La panne d un agent dont beaucoup d agents dépendent pourrait entraîner la panne de tous ces agents

Agent_i Criticité - interdépendances Exemple de graphe d interdépendances 1 w 12 2 m est plus critique que k j Agent_k Agent_j i

Algorithmes d'adaptation des interdépendances Algorithme 1 nombre de messages

Algorithmes d'adaptation des interdépendances Algorithme 2 langage de communciation : FIPA-ACL nombre et poids des performatifs des messages classification des performatifs [M.Colombetti and M.Verdicchio] : Classe 1 : {request, request-whenever, query-if, queryref} Classe 2 : {inform, inform-done, inform-ref, cfp, propose, agree} Classe 3 : {reject-proposal, refuse, failure, notunderstood}

Criticité d un agent Criticité d un agent Agent i w i = a 1 *op_agreg(w ij j=1,m) ) + a 2 * aw i a 1 et a 2 : les poids donnés aux deux paramètres interdépendances et degré d activité a 1 + a 2 = 1 m : le nombre d agents qui dépendent d Agent i w 1j,.., w mj : ses interdépendances aw i : son degré d activité op_agreg : opérateur d agrégation

Mécanisme dynamique et adaptatif de réplication le SMA est enrichi pour lui permettre d observer le comportement des agents et déterminer leur criticité Observation Graphe d interdépendances Agents Réplication Quelle architecture? Environnement

Architecture de monitoring Plusieurs architectures de monitoring [Kaminka et al. 02] [Horling et al. 02] [Dellarocas et Klein 00] Information utilisée en post-mortem Expliquer et améliorer le comportement du système Mécanisme de monitoring centralisé Mal adaptées aux SMA large échelle 20

Architecture de monitoring 21 Niveau Agents Niveau Observation Agent-Monitor 1 Agent 1 Agent-Monitor 2 Agent-Monitor 3 Agent-Monitor 4 Agent 2 Agent 3 Agent 4 Host-Monitor Host 1 Host-Monitor Host 2

Architecture de monitoring Agent-Monitor Mettre à jour les interdépendances de son noeud Calculer la criticité de cet agent Déterminer la stratégie de réplication Host-Monitor Calculer une estimation des informations globales en échangeant des informations locales avec les autres hostmonitors Gérer les ressources 22

Réplication et SMA Mécanisme de réplication dynamique et adaptatif Quels agents répliquer et quand? Combien de fois? Où? Gestion de ressources

Gestion de ressources Une solution simple Le nombre de réplicats est calculé en fonction de la criticité des agents Le lieu de réplication est choisi de manière arbitraire parmi l ensemble des hôtes ayant des ressources encore disponibles Problème : Elle ne prend pas en compte l hétérogénéité des ressources 24

Gestion de ressources Modèle économique basé sur la QoS Protocole de négociation Contract Net Stratégies d évaluation des propositions Fonctions d utilité Paramètres du modèle Coût de la ressource Qualité de la ressource (fiabilité de la machine ) Criticité d un agent 25

DimaX = DIMA + DarX + Contrôle Adaptatif de Réplication Monitoring Agents Service de Réplication Service d Observation Service de Détection de fautes Application (DIMA) Middleware (DARX) 26 Service de Nommage

Exemple d implémentation Benchmark Factorielle Un agent factoriel (AgentFact) AgentFact n a pas les compétences nécessaires pour multiplier deux nombres Plusieurs agents multiplications (AgentMult) 27

Exemple d implémentation Avec DIMA : public void main(string[] args){ AgentFact a=new AgentFact(«fact»); AgentMult b=new AgentMult(«mult» ); a.activatewithfipa activatewithfipa(); b.activatewithfipa activatewithfipa(); } Avec DimaX : public void main(string[] args){ AgentFact a=new AgentFact(«fact» ); AgentMult b=new AgentMult(«mult» ); a.activatewithdarx activatewithdarx(«indira.lip6.fr», 7005); b.activatewithdarx activatewithdarx(«gandhi.lip6.fr», 7005); } 28

Expérimentations Application : eagenda Coût du Monitoring Nombre d'agents N(100,..., 250) 20 agents par machine Même nombre de meetings Trois conditions expérimentales Sans monitoring Avec monitoring (Algo 1) Avec monitoring (Algo 2) Durée entre le début et la fin de la simulation 29

Expérimentations Coût du Monitoring 30

Expérimentations Test de robustesse 100 agents sur 10 machines Simulateur de fautes : arrête de manière aléatoire le thread d un agent Même scénario pour les différentes expérimentations : La liste de meetings et leur définition ne varie pas Nombre réplicats variable : 4, 8, 12, 20 3 Stratégies de réplication Aléatoire Basée sur le nombre de messages (algo 1) Basée sur les performatifs (algo 2) 31

Expérimentations Test de robustesse Nombre de Simulations Réussies Nombre Total de Simulations 32

Conclusion Un mécanisme adaptatif de réplication Graphe d interdépendances Un mécanisme de gestion de ressources Une plate-forme multi-agents opérationnelle tolérante aux fautes Travail en cours Expérimentations Expérimenter plusieurs classifications des performatifs Dérouler les expériences sur le Grid 5000 Perspectives Rédiger la thèse Publier 33

Liste des publications Contrôle adaptatif de réplication 2. Z. Guessoum, N. Faci et J-P. Briot,"Adaptive Replication of Large Scale MASs: Towards a Fault-Tolerant Multiagent Platform",Springer Verlag,2006 (Chapitre) 3. J-P. Briot, Z. Guessoum, S. Aknine, N. Faci et M. Gatti, Experience and Prospects for Various Control Strategies for Self Replicating, SEAMS 06. 4. Z. Guessoum et N. Faci, Towards reliable large-scale MAS, CEEMAS 05 5. Z. Guessoum, N. Faci et J-P. Briot,"Adaptive Replication of Large Scale MASs: Towards a Fault-Tolerant Multiagent, SELMAS 05 6. Z. Guessoum, J-P. Briot et N. Faci, Vers des systèmes multi-agents tolérants aux pannes, JFSMA 04 7. Z. Guessoum, J-P. Briot et N. Faci,"Towards a Fault-Tolerant Massively Multiagent Platform",Springer Verlag,2005 (Chapitre) 8. Soumis : IEEE Transactions on Dependable and Secure Computing Plate-forme multi-agents tolérantes aux fautes 11. N. Faci, Z. Guessoum et O. Marin, DimaX: A Fault Tolerant Multi-agent platform, SELMAS 06 12. N. Faci, Z. Guessoum, O. Marin et M.T. Laskri, DimaX: A Fault-Tolerant Multi-Agent Platform, AISTA 04 Monitoring 15. Z. Guessoum, M. Ziane et N. Faci, "Monitoring and Organizational-Level Adaptation of Multi-Agent Systems", AAMAS '04 Gestion de Ressources : (en cours) 34