Yearly User Meeting @ CC-Lyon Summary J. Brunner CPPM Antares
Man Power Situation Non-Permanent Permanent Setup of LCG 2
Budget development Setup of LCG Approximately constant over last decade 3
Budget share 4
Development of Power Consumption Cooling crisis finished Power need reduced However price increases 5
Number of Cores in Batch Farm Doubled since 2009 : 18000 (!) Shared between GridEngine and LCG 6
Batch farm usage About 75 groups, slight increase over time 7
Batch farm usage 2012 Clear dominance HEP, Astro 10% 115 Mhrs HS06 per month 8
Batch farm usage 2013 Still dominance HEP, Astro 13.6% 140 Mhrs HS06 new groups per month LSST, Euclid 9
Batch farm sharing (2012) HEP = LHC Astro : Antares 2 nd user Total 0.171*0.1 = 1.7% 18000 * 1.7% = 300 cores 2 Mhrs HS06 per month KM3Net : Could take role of Antares 10
Batch farm in 2012 per month Large availability, smooth distribution Broken Wait Run 11
Batch farm in 2013 per month Less smooth : GE upgrade, SL5 SL6 Broken Wait Run 12
Antares batch farm usage 2012 Between 1-2 Mhrs per month 13
Antares batch farm usage 2013 About 3 Mhrs per month, little antares_prod 14
Antares batch farm usage Long term trend khrs in HS06 per year Real usage starts with data taking. 2004 2005 2006 2007 2008 2009 2010 10 460 479 1417 6 514 13 014 12 150 15
Mass Storage Tapes on HPSS with large buffer disks HEP even more dominant as for CPU 16
Antares mass storage 2013 About 200 TB per year on tape (HPSS) Processed data plus MC (raw data 5TB/year) Currently about 100 TB on disk (sps) Delicate point : Garbage collections! Most stored files ARE garbage 17
Services de base de données Client Oracle Services Internet Mysql Services PostgreSQL Services 18
Infrastructure : Oracle 12 machines in production mode 13 DB clusters (11gR2) 56 TB total 515 accoutns 10 DBs with Data Guard (11gR2) 2 emergency servers 19
Infrastructure : Oracle RAC DG Accounts Size Internal applications CC 2 Y 34 1300 GB Development 2 N 72 500 GB GRID services 2 Y 46 500 GB EDMS 2 N 20 16 GB Backup catalogs 2 Y 17 10 GB Symod : monitoring tools CC 2 Y 36 600 GB Experiments 2 Y 32 1200 GB IRODS 2 Y 39 200 GB Atlas 4 N 54 1100 GB AMI 4 Y 59 420 GB Opera 2 Y 18 50 000 GB 20
Infrastructure : Oracle Public Data Guard Lien 10 GB/s Lien 10 GB/s Lien 1GB/s 12 Serveurs avec double alimentation Lien 4GB/s Lien 4GB/s Switch FC 4GB/s IBM V7000 Redondance disque : RAID 6 + Spare 170 To SATA Oracle PILLAR Redondance disque : RAID 50 + Spare 185 To SATA 30 To FC 21
Infrastructure : Mysql 2 machines de production pour Mysql 4 serveurs Mysql (Actif Passif) 599 Bases de données 600 comptes 80 Go utilisés 1 machine de test pour LSST (5 To) 1 machine dédiée aux besoins spécifiques à certaines expériences L administration du serveur Mysql est gérée par l expérience 22
Infrastructure : PostgreSQL 2 machines de production pour PostgreSQL 2 serveurs PostgreSQL ( Actif Passif) 69 Bases de données 77 comptes 77 Go utilisés 2 serveurs PostgreSQL ( Maître Esclave) 1 Base de données et 1 seul compte 440 Mo utilisés 3 serveurs PostgreSQL ( Maître Esclave) E-tricks Maître CC / esclave Impérial College et Luxembourg 23
Infrastructure : Mysql / PostgreSQL Public Lien 10 GB/s Lien 1GB/s Mysql LSST Mysql PostgreSQL IBM V7000 Redondance disque : RAID 6 + Spare 170 To SATA Lien 4GB/s Lien 4GB/s Switch FC 4GB/s Oracle PILLAR Redondance disque : RAID 50 + Spare 185 To SATA 30 To FC 24
Network connections Network managed by CC-Lyon Traffic load map One end point : Antares site 25
Network : External lines Antares-CPPM 100 Mbit/sec 30,000 Euro/year Similar situation with Modane (LSM) 26
Networking : Renater Plan for 2014 Connect Antares/Km3Net (IMP) directly to RENATER network 1GBit/sec Investment 50,000 Euro Yearly gain 30,000 Euro 27
GPU So far not supported at CC-Lyon No plan to install farm with GPUs Test GPUs are available We are invited to formulate a clear request Important for KM3Net simulations!! 28
END 29
Plan L accès aux services de BDDs L architecture des services Configuration des clients Infrastructure Sauvegarde Bilan 2013 Planning 2014 30
L accès aux services de BDDs Oracle/Mysql/PostgreSQL Easy connect myserver:1521/myservice Oracle MyAppService = (DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = myserver)(port = 1521)) (CONNECT_DATA = (SERVER = DEDICATED) (SERVICE_NAME = myservice) ) ) IP virtuelle 31
Plan L accès aux services de BDDs L architecture des services Configuration des clients Infrastructure Sauvegarde Bilan 2013 Planning 2014 32
L architecture des services Mysql / PostgreSQL Mode Actif Passif Basculement Automatique Node 01 ccmysql Actif Mysql Actif Volume Logique Node 02 ccmysql Actif Mysql Actif Volume logique ccmysql:xxxx/myservice PACEMAKER Shared disk 33
L architecture des services PostgreSQL Basculement Manuel Mode Maître / Esclave Node 01 Node 02 ccpgsql Actif ccpgsql Actif ccpgsql:xxxx/myservice PgSQL Actif Volume Logique PgSQL Actif Actif en Read Volume logique disk disk 34
L architecture des services Oracle ccorascanxx:xxxx/myservice Mode Actif - Actif Répartition en fonction de la charge Basculement Automatique Oracle Recommande un client > 10g Node 01 Node 02 Oracle Actif ccdboraxx Actif Oracle Actif ASM ASM CRS Shared disk 35
L architecture des services Oracle PRODUCTION SECOURS Data Guard ccdbora01 Actif ccdbora05 Actif Oracle Actif Oracle Actif Réplication Oracle Inactif Actif ASM ASM ASM CRS CRS Shared disk disk 36
Plan L accès aux services de BDDs L architecture des services Configuration des clients Infrastructure Sauvegarde Bilan 2013 Planning 2014 37
Configuration des clients Oracle/Mysql/PostgreSQL Easy connect myserver:1521/myservice Oracle TNS MyAppService = (DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = myserver)(port = 1521)) (CONNECT_DATA = (SERVER = DEDICATED) (SERVICE_NAME = myservice) ) ) IP virtuelle -> Le client est connecté au serveur, il émet une requête mais le serveur est en panne. Le client recevra un TCP timeout au bout de 2 heures (valeur par défaut sous linux) Adapter la configuration TCP suivant vos besoins. -> Capturer les erreurs de connexion dans votre code pour réinitialiser le processus de reconnexion 38
Configuration des clients Oracle Easy connect myserver:1521/myservice Oracle Data Guard Oracle Actif ccdbora01 Actif Oracle Actif ccdbora05 Actif Oracle Actif ASM ASM ASM CRS CRS Shared disk disk 39
Configuration des clients TNS : Transparent Network Substrate (DESCRIPTION_LIST= (LOAD_BALANCE=off) (FAILOVER=on) (DESCRIPTION= (ENABLE=BROKEN) (CONNECT_TIMEOUT=5)(RETRY_COUNT=3) (ADDRESS_LIST= (LOAD_BALANCE=on) (ADDRESS=(PROTOCOL=TCP)(HOST=myprodserver.in2p3.fr)(PORT=1521))) (CONNECT_DATA=(SERVICE_NAME=myservice.in2p3.fr)) ) (DESCRIPTION= (ENABLE=BROKEN) (CONNECT_TIMEOUT=5) (RETRY_COUNT=3) (ADDRESS_LIST= (LOAD_BALANCE=on) (ADDRESS=(PROTOCOL=TCP)(HOST=mystdbyserver.in2p3.fr)(PORT=1521))) (CONNECT_DATA=(SERVICE_NAME=myservice.in2p3.fr) ) ) ) 40
Configuration des clients Capturer les erreurs de connexion dans votre code pour réinitialiser le processus de reconnexion Toutes nos base de données destinées à la production sont sous Data Guard Centraliser les chaînes de connexion le plus possible Configuration des paramétres TCP suivant vos besoins de disponibilité L usage des librairies 11g est fortement recommandé 41
Plan L accès aux services de BDDs L architecture des services Configuration des clients Infrastructure Sauvegarde Opérations de Maintenance Planning 2014 42
Plan L accès aux services de BDDs L architecture des services Configuration des clients Infrastructure Sauvegarde Opérations de Maintenance Planning 2014 43
Sauvegarde Mysql Sauvegarde complète avec journaux de transactions Période : Toutes les nuits Méthode : Mysqldump ( SQL format) Destination : sur disque et bande Rétention : 180 jours Sauvegarde des journaux de transactions Période : Toutes les 6 heures Destination : bande Rétention : 180 jours 44
Sauvegarde PostgreSQL Sauvegarde complète avec journaux de transactions Période : Toutes les nuits Méthode : pgdump (SQL format) + pgbackup Destination : bande + disque Rétention : 180 jours Sauvegarde des journaux transactions Période : Toutes les 6 heures Destination : bande Rétention : 180 jours 45
Sauvegarde Oracle Sauvegarde complète avec journaux de transactions Période : Une fois par semaine Méthode : RMAN Destination : Bande Rétention : 30 jours Sauvegarde incrémentale avec journaux de transactions Période : 6 / 7 jours Méthode : RMAN Destination : Bande Rétention : 30 jours 46
Bon à savoir Possibilité de restaurer une base de données / un compte à un instant précis dans le passé Avant de mettre à jour, en production, votre modèle données, demandez une sauvegarde personnaliser Identification de l auteur d une commande (Oracle) Possibilité de rembobiner l exécution d une commande DELETE / UPDATE / INSERT (Sur Oracle seulement) IMPORTANT : EN CAS D ERREUR DE MANIPULATION RELEVEZ L HEURE DE L OPERATION 47
Plan L accès aux services de BDDs L architecture des services Configuration des clients Infrastructure Sauvegarde Bilan 2013 Planning 2014 48
Bilan 2013 Mise en place de l infrastructure Data guard Renouvellement des machines Opera Mise à jour des 5 serveurs Mysql en 5.6 Mise à jour des 5 serveurs PostgreSQL en 9.2 Mise en place d une infrastructure pour LSST et E-tricks OTRS : 21 incidents résolus 25 demandes traités 49
Planning 2014 Client Oracle sur AFS Plateforme RHEL6 : Client Oracle disponible A PARTIR DE LA VERSION 11.2.0.3 Contrôler que toutes vos applications fonctionnent sur les librairies 11g Oracle : Migration d Oracle 11.2.0.3.8 vers 11.2.0.4.1 Eventuellement migration en fin d année en 12C Migration via Data Guard avec arrêt de service de l ordre de la minute Renouvellement de 5 machines Oracle et des switches FC Remplacement de la fonctionnalité Oracle STREAMS par Golden gate 50
Planning 2014 Mysql : Migration vers Mariadb 5.7 PostgreSQL : Migration vers PostgreSQL 9.3 Etude d une plateforme Galera pour MariaDB (innodb) 51
Planning 2014 Procédure de renouvellement des comptes 3 incidents de SQL injection Non respect de la charte informatique Publication des identifiants de connexion sur Internet Mise à jour de la liste des responsables de compte Une notification par mail sera envoyée à chaque responsable pour confirmer le renouvellement du ou des comptes Sans réponse les 3 premiers mois, le compte sera verrouillé Sans réponse dans les 6 mois qui suivent le verrouillage du compte, les données seront supprimées. 52
QUESTION? dba@cc.in2p3.fr Privilégier un contact via OTRS 53