Tolérance aux pannes dans les systèmes distribués. Alain BUI

Documents pareils
Systèmes et algorithmes répartis

Introduction aux algorithmes répartis

CEG4566/CSI4541 Conception de systèmes temps réel

GUIDE PRATIQUE déplacements professionnels temporaires en France et à l étranger

Conception des systèmes répartis

Windows Internet Name Service (WINS)

GERER SA MAINTENANCE INFORMATIQUE

Conception et contrôle des SMA tolérants aux fautes

«clustering» et «load balancing» avec Zope et ZEO

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

INFORMATIONS IMPORTANTES AU SUJET DU SERVICE 911

1. La sécurité applicative

INSTRUCTION DE SÉCURITÉ

b. Nom de l établissement/du point de vente (y compris l adresse postale et l adresse municipale)

CONDITIONS GENERALES DE SERVICE APRES VENTE (S.A.V.)

Puissantes applications pour l entreprise. Pensées pour les utilisateurs. Conçues pour le changement.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Partage des coûts vs gratuité

Mise en place d un Site de Secours Backup à Koléa

Indicateurs de qualité de service fixe relatifs à la décision ARCEP N

De source sûre. Les inverseurs de sources statiques numériques ABB dopent la fiabilité des datacenters

Groupe Eyrolles, 2006, ISBN :

Livre blanc Haute disponibilité sous Linux

Sauvegarde collaborative en pair-à-pair

Données Réparties. Thibault BERNARD.

Principe et règles d audit

27 mars Sécurité ECNi. Présentation de la démarche sécurité

Comprendre l importance de la connectivité pour votre centre de données. Un guide pratique pour prendre des décisions

Orientations pour la gestion documentaire des courriels au gouvernement du Québec

ANALYSE DE RISQUE AVEC LA MÉTHODE MEHARI Eric Papet Co-Fondateur SSII DEV1.0 Architecte Logiciel & Sécurité Lead Auditor ISO 27001

Fibre optique, copropriété et opérateurs

Améliorer la performance des ressources de la production par la TPM

L Assemblée Nationale a délibéré et adopté en sa séance du 14 décembre ;

Méthode de sureté de fonctionnement pour une maintenance efficace Application à un poste électrique (60/10KV)

TD 2 Chapitre 4 : Support des Services et Serveurs. Objectifs : Maîtriser l'exploitation des tables de routage dynamique.

Dynamic Host Configuration Protocol

Dans le cadre de ses activités elle propose un service de gestion de Domaines pour Intenet : enregistrement et gestion

Identification, évaluation et gestion des incidents

Loi n 0005/2008 du 11 juillet 2008 portant création, organisation et fonctionnement de l Agence Nationale de l Aviation civile

Écriture de journal. (Virement de dépense)

MEAD : temps réel et tolérance aux pannes pour CORBA

ACCESSNET -T IP Technique système TETRA d Hytera.

Technologie de déduplication de Barracuda Backup. Livre blanc

L apprentissage automatique

Tolérance aux fautes - 1 Introduction, techniques de base

Résultats Note méthodologique

2 Moodle Guide 2c : banque de questions et activité Test. Version du service

EN BLANC AVANT IMPRESSION»»»

Services professionnels et services gérés

IDEAL Connaissances. Au service de la performance publique

ITIL V2. La gestion de la disponibilité

1. OBJET ET DÉFINITIONS :

Convention type ENTRE :

Vision prospective et obstacles à surmonter pour les assureurs

Réplication des données

ASSOCIATION CANADIENNE DES PAIEMENTS CANADIAN PAYMENTS ASSOCIATION NORME 012 NORME DE SÉCURITÉ DES IMAGES

«Commande» se rapporte à un bon de commande ou à une commande créée sur un site Internet Interoute.

Parallélisme et Répartition

Exclusion Mutuelle. Arnaud Labourel Courriel : arnaud.labourel@lif.univ-mrs.fr. Université de Provence. 9 février 2011

Résumé. IronPort Web Reputation : protection et défense contre les menaces à base d URL

Le trading haute fréquence vu de l AMF. Arnaud Oseredczuck, chef du service de la surveillance des marchés

Rapport de certification PP/0002

COMPOSANTS DE L ARCHITECTURE D UN SGBD. Chapitre 1

REFERENTIEL DU CQPM. TITRE DU CQPM : Electricien maintenancier process 1 OBJECTIF PROFESSIONNEL DU CQPM

Intelligence précoce

Politique de gestion des risques

F1C1/ Analyse. El Hadji Malick DIA

La fonction exponentielle

MBR225. Le module a été conçu et réalisé conformément aux normes en vigueur portant sur la sûreté et la fiabilité des installations industrielles.

Préparation des données d entrée pour la définition d un plan de validation

CONVENTION DE PARTENARIAT ENTRE L AMF ET RTE

Flex Multipath Routing

Plan. 5 Actualisation. 7 Investissement. 2 Calcul du taux d intérêt 3 Taux équivalent 4 Placement à versements fixes.

Conception et réalisation d uned architecture tolérant les intrusions pour des serveurs Internet

Techniques de stockage. Techniques de stockage, P. Rigaux p.1/43

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

QU EST- CE QU UNE CONSTITUTION

Algorithmique avec Algobox

Fonctionnement et mise en place d un reverse proxy sécurisé avec Apache. Dimitri ségard 8 mai 2011

Utilisation des nombres pour résoudre des problèmes Aspect cardinal Maternelle MS-GS. Francette Martin

Continuité d activité : le choix des armes

La gestion des problèmes

RAPPORT DU CONSEIL D ADMINISTRATION A L ASSEMBLEE GENERALE

Sécurité. Tendance technologique

Outils et moyens pour implanter la continuité des opérations dans votre organisation

Risques liés aux systèmes informatiques et de télécommunications

Toshiba EasyGuard en action : Portégé M300

FICHE DE FONCTION - 04

LIVRE BLANC. Mise en œuvre d un programme efficace de gestion des vulnérabilités

Service des Systèmes d Informations

Une offre globale pour les datacenters. Siemens France.

Probabilités conditionnelles Exercices corrigés

Licence Sciences et Technologies Examen janvier 2010

Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS. Spécialité : Systèmes Automatiques. Par CLAUDIA VICTORIA ISAZA NARVAEZ

Améliorer la Performance des Fournisseurs

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

VMWare Infrastructure 3

L Application Performance Management pourquoi et pour quoi faire?

Recommandations pour la protection des données et le chiffrement

Transcription:

Tolérance aux pannes dans les systèmes distribués Alain BUI Professeur Département de Mathématiques et Informatique alain.bui@univ-reims.fr Alain BUI -- Université de Reims 1

Introduction Nombre croissant de composants dans un système => Probabilité plus grande que des composants tombent en panne pendant l exécution de l algorithme Causes diverses Erreurs de conception, Accidents, Malveillances etc. Objectif: éviter de relancer un algorithme après chaque panne => concevoir des algorithmes capables de fonctionner malgré des pannes. Alain BUI -- Université de Reims 2

Système Distribué: panne => système est affecté partiellement et improbable qu il le soit en totalité Idée de solution: les sites corrects prennent en charge les tâches des sites défaillants Conséquence: perte de performances mais pas de fonctionnement erroné Alain BUI -- Université de Reims 3

Définition erreurs => défaillances => fautes Un composant est défaillant s il ne répond plus à sa spécification (composant en SD = lien ou site) Une faute ou panne désigne une défaillance temporaire ou définitive d un ou plusieurs composants du système Alain BUI -- Université de Reims 4

Spécifications Spécifications pour les sites Si un site n a pas atteint un état final, il finira par exécuter une autre étape de l algorithme Spécifications pour les liens de communications Un site j reçoit un message d un site i au plus une fois et seulement si i a précédemment envoyé le message à j Si i a envoyé un message à j et j exécute infiniment des étapes de l algorithme alors j finira par recevoir le message de i. Alain BUI -- Université de Reims 5

Algorithmes Robustes Robuste : Garantir la correction du comportement global du système vis à vis des spécifications de l algorithme Spécifications définies en terme d invariants qui doivent être constamment vérifiés Aucun dysfonctionnement n est toléré pour le système Algos robustes masquent les fautes Approche dite pessimiste Alain BUI -- Université de Reims 6

Algorithmes Robustes : exemple comportemental Exclusion Mutuelle Propriétés de sûreté et de vivacité toujours vérifiées Par exemple, on ne se retrouvera jamais avec une configuration où 2 sites sont en même temps en SC Élection Un et un seul site sera élu Par exemple, à aucun moment il existe une configuration où simultanément plusieurs sites décident qu ils sont élus. Alain BUI -- Université de Reims 7

Algorithmes auto-stabilisants Finir par garantir la correction du comportement global du système vis à vis des spécifications de l algorithme Système tolère certaines périodes de dysfonctionnement Algorithmes ne masquent pas les fautes Approche dite optimiste Alain BUI -- Université de Reims 8

Algorithmes Auto-stabilisants: exemple comportemental Exclusion mutuelle Propriété de sûreté non vérifié pendant un intervalle de temps Deux sites peuvent se retrouver en SC MAIS au bout d un moment le système retrouve un comportement correct (l algorithme retrouve de lui même un état valide) Alain BUI -- Université de Reims 9

Classification des fautes Des critères Origine de la faute Type de composant : ex. lignes ou sites Cause de la faute: bénignes ou malignes Défaillances temporaires ou définitives : si le composant fonctionne il fonctionne correctement ex. ligne transmet le msg ou non / site traite le msg ou non Défaillances byzantines : comportement arbitraire du composant défaillant. Si le composant fonctionne, il ne fonctionne par correctement à l insu des autres composants. ex. site répond «blanc» à certains sites et «noir» à d autres. Alain BUI -- Université de Reims 10

Classification (suite) Durée de la faute Définitive Temporaire Détectabilité de la faute Détectable localement. Réparation par le site lui-même. Non détectable localement. Réparation nécessite échange de messages. Différentes classification selon ces critères, en voici une Alain BUI -- Université de Reims 11

Une hiérarchie Sites Site mort-né : site n exécute aucune instruction de son algo. Site en panne franche : site fonctionne correctement jusqu à l apparition de la panne et cesse totalement de fonctionner. Site byzantin : comportement arbitraire. Mort-né Panne franche Byzantin Résultat d impossibilité Résultat de faisabilité Alain BUI -- Université de Reims 12

Typologie Panne franche Composant fonctionne correctement puis panne et cesse immédiatement de fonctionner = panne permanente Panne franche de site Coupure d une ligne => changement de topologie du réseau Alain BUI -- Université de Reims 13

Panne transitoire Comportement erroné des composants pendant une certaine période. Comportement correct ensuite. On peut distinguer si la panne n apparaît qu une fois ou plus ou moins périodiquement Corruption mémoire Annulation d une transaction Perte de messages sur une ligne Panne byzantine Toute panne engendrant une comportement s écartant des spécifications Alain BUI -- Université de Reims 14

Robustes vs Auto-stabilisants Fautes transitoires Fautes définitives Masquant AS OUI NON NON Robuste NON OUI OUI 2 approches complémentaires Choix dépend du problème à résoudre Alain BUI -- Université de Reims 15

Alain BUI -- Université de Reims 16

Alain BUI -- Université de Reims 17