Adaptation du datacenter Météo France en environnement HPC Erwan Favennec Responsable de la division Réseau et Sécurité DSI de Météo-France Espace Grande Arche Paris La Défense
Plan Contexte Déroulement du projet : procédure d achat, durée, dates Migration vers la nouvelle architecture Premiers retours
Contexte 1 Météo-France EPA sous la tutelle du MEDDE (Décret n 93-861 du 18 juin 1993) Opérateur national de la météorologie et du climat Activités de production opérationnelle, de recherche, d enseignement, vers des partenaires et clients institutionnels (Sécurité civile, DGAC, AIEA, Armées, etc.) et commerciaux 3200 personnes dont 1200 sur Toulouse DSI (et HPC) sur Toulouse
Contexte 2 Renforcement de la résilience du cœur de réseau opérationnel Besoin global d une densité plus forte en 10GbE et de connectivité 40GbE Remplacement des supercalculateurs impossible à connecter sur l ancien cœur de réseau Nouveaux supercalculateurs Bull : 54 e au Top500 de juin 2013 pour le 1 er installé 2 e phase de montée en charge fin 2015 (puissance x2)
Contexte 3 Ouverture d un 2 e datacenter sur Toulouse besoin de 2 cœurs de réseau Installation d un 1 er supercalculateur sur la Météopole et d un 2 nd sur le 2 e datacenter Plusieurs projets à phaser : Construction 2 e datacenter HPC Stockage Interconnexion des 2 datacenters Cœurs de réseau des 2 datacenters
Contexte 4 Météopole Espace Clément Ader Fond de carte : Google Map 1 km
Déroulement du projet 1 Retard pris dans le lancement du projet de remplacement du cœur de réseau mise en place d une solution d attente pour connecter le 1 er supercalculateur Marché public : AO ouvert Bons de commande Périmètre : cœur de réseau des 2 datacenters Durée totale de la procédure : ± 1 an novembre 2012 janvier 2013 : rédaction pièces du marché 5 février 2013 : parution de l annonce 26 août 2013 : notification 6 novembre 2013 : migration cœur de réseau (Météopole)
Déroulement du projet 2 Principaux critères de choix : Intégrateur : niveau de partenariat, expertise, expérience de projets similaires Qualité de la maintenance Critères techniques (extrait ) : Prix Dimensionnement sur 2013-2016 Résilience/Disponibilité : redondance de chaque élément, LACP, ISSU,... Segmentation : 802.1q, VRF, etc. Performance : architecture non bloquante en fonctionnement nominal Administration/Supervision
Déroulement du projet 3 6 offres sur 4 constructeurs Choix final : Constructeur : HP Datacenter Météopole : HP 11908-V nouveau produit HP 5820AF-48G Datacenter Espace Clément Ader HP 5900AF-48XG-4QSFP Partenaire : Spie Communications (achat, maintenance, assistance à la mise en œuvre, transfert de compétence, rédaction de la documentation) Très forte implication et grande efficacité des experts toulousains de Spie Risque associé à la nouveauté du produit assumé en raison de la forte implication d HP
Durée : Migration vers la nouvelle architecture 1 Cœur de réseau du datacenter principal (Météopole) mis en œuvre en moins de 2 mois Réunion de lancement le 09/09/2013 Fin de la bascule le 06/11/2013 Cœur de réseau du nouveau datacenter (Espace Clément Ader) installé dans un 2 nd temps, en décembre 2013
FAN 100-240 V~ 1 2 3 4 5 6 7 8 9 WS-X6704-10GE 4 PORT 10 GIGABIT ETHERNET WS-X6748-GE-TX WS-X6704-10GE 4 PORT 10 GIGABIT ETHERNET WS-X6704-10GE 4 PORT 10 GIGABIT ETHERNET WS-SUP720-3B 1 2 SUPERVISOR 720 WITH INTEGRATED SWITCH FABRIC WS-X6704-10GE 4 PORT 10 GIGABIT ETHERNET WS-X6704-10GE 4 PORT 10 GIGABIT ETHERNET WS-X6748-SFP 1 LINK 1 LINK 1 2 LINK 1 LINK 1 LINK 1 3 LINK 2 INPUT OK 4 EJECT LINK 2 LINK 2 LINK 2 LINK 2 5 LINK3 LINK3 LINK3 LINK3 LINK3 6 LINK 4 LINK 4 7 LINK 4 LINK 4 LINK 4 8 DISK 0 48 PORT GIGABIT ETHERNET SFP 9 10 11 OUTPUT FAIL 12 11 12 4 8 P O R T EJECT 13 14 13 14 DISK 1 15 PORT1 16 17 18 PORT1 PORT1 PORT1 PORT1 19 20 21 22 23 PORT2 Power Supply 1 Power Supply 2 24 23 24 PORT2 PORT2 PORT2 PORT2 10/100/1000 GE MOD 25 26 100-240 V~ 25 26 27 28 29 30 CONSOLE PORT 2 PORT 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 PORT3 PORT3 PORT3 PORT3 PORT3 LINK 31 32 PORT4 33 34 PORT4 PORT4 Slot LINK PORT4 PORT4 35 INPUT OK 36 35 36 37 38 FABRIC ENABLED RJ45 LINK 37 OUTPUT FAIL 38 39 40 41 42 43 44 45 46 47 48 47 48 Speed:Green = 1000Mbps, Yellow = 10/100Mbps HP 10508-V Switch JC611A 0 1 2 3 4 5 6 7 8 9 INPUT 100-240VAC Duplex:Green = Full Duplex, Yellow = Half Duplex 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 PWR0 FLT INPUT 100-240VAC 47 35 26 23 18 15 14 PWR1 FLT 10/100/1000Base-T 47 35 26 23 18 15 14 INPUT 100-240VAC 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 PWR2 SLOT ACTIVE FAN1 RUN OK LINK FLT ALM FAIL RESET ACT INPUT 100-240VAC SLOT ACTIVE FAN1 RUN OK LINK ALM FAIL RESET ACT PWR3 FLT PWR4 49 50 51 52 SFP PWR5 HP 5800 Series Switch JG225A Unit Green = Speed Yellow = Duplex 53 54 Green = 10Gbps, Yellow = 1Gbps Mode SYS E S D Speed:Green = 1000Mbps, Yellow = 10/100Mbps HP 10508-V Switch JC611A 0 1 2 3 4 5 6 7 8 9 INPUT 100-240VAC Duplex:Green = Full Duplex, Yellow = Half Duplex 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 PWR0 FLT INPUT 100-240VAC 47 35 26 23 18 15 14 PWR1 FLT 10/100/1000Base-T 47 35 26 23 18 15 14 INPUT 100-240VAC 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 PWR2 SLOT ACTIVE FAN1 RUN OK LINK FLT ALM FAIL RESET ACT INPUT 100-240VAC SLOT ACTIVE FAN1 RUN OK LINK ALM FAIL RESET ACT PWR3 FLT PWR4 49 50 51 52 SFP PWR5 HP 5800 Series Switch JG225A Unit Green = Speed Yellow = Duplex 53 54 Green = 10Gbps, Yellow = 1Gbps Mode SYS E S D Migration vers la nouvelle architecture 2 Datacenter principal (Météopole) Cluster 5800 IRF HP 5800AF-48G HP 5800AF-48G SFP 4fibres SC Slot 1 RJ45 cuivre 48P SFP 4fibres SC SFP 4fibres SC Module SUP 720 SFP 4fibres SC SYSTEM ACTIVE PWR SFP 4fibres SC 7 SFP fibres LC 48P MGMT RESET Slot 2 Slot 3 4 Slot 5 Slot 6 Slot 7 Slot 8 LSU1QGS8SF0 40GBASE-R-QSFP 5 6 7 8 1 2 3 4 LSU1QGS8SF0 40GBASE-R-QSFP 5 6 7 8 1 2 3 4 10GBASE-R-SFP LSU1TGS48SF0 1 2 3 4 5 6 7 8 9 10 11 12 13 16 17 19 20 21 22 24 25 27 28 29 30 31 32 33 34 36 37 38 39 40 41 42 43 44 45 46 48 10GBASE-R-SFP LSU1TGS48SF0 1 2 3 4 5 6 7 8 9 10 11 12 13 16 17 19 20 21 22 24 25 27 28 29 30 31 32 33 34 36 37 38 39 40 41 42 43 44 45 46 48 LSU1SUPA0 MANAGEMENT 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 FAN0 0 10/100/1000BASE-T CONSOLE LSU1SUPA0 MANAGEMENT 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 FAN0 0 10/100/1000BASE-T CONSOLE LSU1QGS8SF0 40GBASE-R-QSFP 5 6 7 8 1 2 3 4 LSU1QGS8SF0 40GBASE-R-QSFP 5 6 7 8 1 2 3 4 10GBASE-R-SFP LSU1TGS48SF0 1 2 3 4 5 6 7 8 9 10 11 12 13 16 17 19 20 21 22 24 25 27 28 29 30 31 32 33 34 36 37 38 39 40 41 42 43 44 45 46 48 10GBASE-R-SFP LSU1TGS48SF0 1 2 3 4 5 6 7 8 9 10 11 12 13 16 17 19 20 21 22 24 25 27 28 29 30 31 32 33 34 36 37 38 39 40 41 42 43 44 45 46 48 LSU1SUPA0 MANAGEMENT 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 FAN0 0 10/100/1000BASE-T CONSOLE LSU1SUPA0 MANAGEMENT 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 FAN0 0 10/100/1000BASE-T CONSOLE INPUT 16 A 60/50 Hz INPUT 16 A 60/50 Hz INSTALL RUN INSTALL RUN 16A, 50/60Hz AC DC 16A, 50/60Hz AC DC 16A, 50/60Hz AC DC 16A, 50/60Hz AC DC 16A, 50/60Hz AC DC 16A, 50/60Hz AC DC 16A, 50/60Hz AC DC 16A, 50/60Hz AC DC FAN OK PILLER Catalyst 6500 SERIES FAN OK COREDEL Ancien cœur de réseau HP 11908-V HP 11908-V Cluster 11908 IRF Nouveau cœur de réseau
Migration vers la nouvelle architecture 3 Travail préparatoire au remplacement Validation de l architecture-cible Configuration des nouveaux cœurs sur la base de celle de l ancien cœur Inventaire des équipements connectés Recette (de ce qu il était possible de recetter ) Traitement des aspects «logistiques» (emplacement, connectique, alimentation électrique, etc.) Définition de la procédure détaillée de migration, avec identification des points délicats (VTP, etc.) et du séquencement (par ½ heure)
Bascule : Migration vers la nouvelle architecture 4 Finalement effectuée sur une seule journée Interconnexion des 2 nouveaux cœurs à l ancien cœur 1 ères bascules de niveau 2 Bascule du routage Fin des bascules Durée : environ 9h00 (10h00-19h00)
(Petits) soucis rencontrés : Migration vers la nouvelle Une fibre optique défectueuse architecture 5 Mauvaise passerelle par défaut sur un serveur (proxy-arp activé par défaut sur Cisco, pas sur HP Risque identifié préalablement par Spie) MTU à réduire sur certains serveurs (9216 9000 octets) Et quelques problèmes indépendants de la bascule, identifiés lors de celle-ci (agrégat LACP non monté, lenteur trafic réseau, etc.)
Migration vers la nouvelle architecture 6 Opérations post-bascule Recette post-bascule Documentation Transfert de compétence
Premiers retours Aucun retour «utilisateurs» Tout va bien! Migration vers un nouveau constructeur : OK pour administrateurs/pupitreurs (tableau de correspondance de commandes réalisé par Spie) A améliorer dans ce type de projet : Timing : ne jamais sous-estimer la durée de passation des marchés publics Recette technique préalable à faire aussi exhaustivement que possible Communication interne durant l opération de bascule : une personne dédiée
Témoignage proposé par Retrouvons-nous sur le stand 10 Espace Grande Arche Paris La Défense