Les données massives à Calcul Québec Marc Parizeau, professeur et directeur scientifique de Calcul Québec
Plan Calcul Québec / Calcul Canada Les outils et les services disponibles Un outil en particulier : Spark 2
Calcul Québec 3
Mission Procurer au milieu de la R&D des infrastructures matérielles et logicielles en Calcul Informatique de Pointe (CIP) ainsi que des services d expertconseil, afin de contribuer à l avancement des connaissances dans toutes les branches du savoir et à la formation de personnel hautement qualifié en CIP, capable d exploiter efficacement le parallélisme des systèmes informatiques modernes. 4
Quelques chiffres Quatre sites principaux Laval McGill / ETS UdeM Sherbrooke Au total: un personnel d une quarantaine d employés environ 1200 utilisateurs dans 400 groupes de recherche 80,000 cœurs de calcul 300 accélérateurs 200 To de mémoire vive 8000 To de stockage sur disque 5
Statistiques 6
Nous rejoindre Site web http://www.calculquebec.ca http://wiki.calculquebec.ca http://www.calculquebec.ca/fr/acces-aux-ressources Support technique support@calculquebec.ca Informations générales info@calculquebec.ca Pour un serveur spécifique <serveur>@calculquebec.ca 7
Calcul Canada Université membre Université membre avec personnel Université membre avec personnel et infrastructures 8
Infrastructures à l UL Colosse Grappe de 960 noeuds 2 x Intel X5560 2.8GHz (8 coeurs) Mémoire : DDR3 à 1333 MHz. - 936 noeuds: 24 GB (3 GB / coeur) - 24 noeuds: 48 GB (6 GB / coeur) Réseau: Infiniband QDR (40Gbps) Stockage: 2 x 500 TB (1PB total) 17 GB/s (scratch), 12 GB/s (home) Hélios Grappe de 168 GPGPU 15 noeuds, 20 coeurs à 2,5 GHz, 128 Go RAM et 8 GPU NVIDIA K20 par noeud 6 noeuds, 24 coeurs à 2,7 GHz, 256 GB RAM et 8 GPU NVIDIA K80 par noeud 9
Services disponibles Administration et opération de grappes de calcul Déploiement de systèmes de calcul et de stockage parallèle Conception et mise en service de solutions de calcul surmesure Exploitation de grappes de calcul Développement d'algorithmes parallèles (MPI, OpenMP, CUDA, Hadoop, Spark, etc.) Configuration / utilisation de logiciels HPC (Ansys, OpenFoam, etc.) Adaptation et optimisation de workflows distribués Virtualisation Formation 10
Les formations De base Software Carpentry Ligne de commande Unix Gestion de code programmation (R / Python) Premiers pas sur les serveurs de calcul Programmation Python Programmation R MDCS : Matlab Distributed Computer Server Visualisation avec Paraview Analyse de données Hadoop / MapReduce Spark 11
Accélérateurs et GPU programmation Cuda Programmation Cuda avancée Bibliothèques GPU programmation de Xeon Phi Calcul parallèle de haute performance Introduction à OpenMP Programmation OpenMP avancée Introduction à MPI Programmation MPI avancée et programmation hybride Profilage et optimisation avec Open / SpeedShop Déboggage avec DDT Entrées/sorties parallèles avec HDF5 12
Outils: Hadoop + Spark 13
Les défis du «big data» les 3 Vs + la véracité 14
Apache Software Foundation Plus de 150 projets open source dont plus d une trentaine en lien avec les données massives 15
Hadoop mécanique de base stockage distribué autres outils 16
Les enjeux l approche classique ne fonctionne plus avec les données massives (Oracle) (Hadoop / Spark) (Google) 17
Stockage distribué (HDFS) HDFS = Hadoop Distributed File System 18
Map - shuffle - reduce 19
Redondance 20
problèmes majeurs: usage de disques 21
Spark remplace le map/reduce de Hadoop Permet de faire des itérations sans passer par le stockage sur disque Augmente la performance jusqu à 100x 22
Hadoop Spark 23
Pour en savoir plus? La prochaine formation Spark est mardi le 3 novembre! Voir notre calendrier: http://www.calculquebec.ca/fr/aide-et-documentation/ formation/calendrier-formations Pour s inscrire: http://calculquebec.eventbrite.ca 24
Conclusion Temps de calcul Extension de capacité de calcul. Capacité supplémentaire de courte durée (bursting). Stockage / transfert de données Consultation choix technologique développement algorithmique optimisation, etc. Formations spécialisées Soutien à la recherche Contrats avec l industrie 25