在欧洲和美国,高效能运算开发人员正透过 NVIDIA BlueField-2 DPU内的 Arm 核心与加速器大幅提升超级电脑的效能。
在洛斯阿拉莫斯国家实验室 (Los Alamos National Laboratory;LANL) 的工作内容是与 NVIDIA 多年广泛合作的部分,目标为提升多物理应用程式的运算速度至 30 倍。
LANL 的研究人员预期使用 NVIDIA Quantum InfiniBand 网路所采用的资料处理器 (DPU) 能大幅提升运算效能。他们运用 BlueField 及其 NVIDIA DOCA 软体框架在运算储存、模式配对等更多领域引领技术发展。
DPU 专用的开放式API
这些努力亦有助於进一步定义 OpenSNAPI,该应用程式介面让任何人都能使用 DPU。这是整合通讯框架 (Unified Communication Framework) 的其中一项专案,该联盟为高效能应用程式提供异质运算,成员包含 Arm、IBM、NVIDIA、美国国家实验室与美国大学。
LANL 已感受到网路内运算的强大力量,这要归功於其建立的 DPU 储存系统。
加速快闪记忆体 (Accelerated Box of Flash;ABoF) 结合固态储存与 DPU 和 InfiniBand 加速器,可加速 Linux 档案系统中最讲求效能的部分。其速度较类似的储存系统快上 30 倍,并将成为 LANL 基础架构的关键元件。
在 LANL 近期的部落格文章中,一名研究人员表示:「ABoF 在邻近储存空间的位置进行运算,将资料移动降到最低,并提升模拟和资料分析流程的效率。」
德州采用云端原生超级运算技术
德州先进电脑运算中心 (Texas Advanced Computing Center;TACC) 是最新於 Dell PowerEdge 伺服器中采用 BlueField-2 的组织,该运算中心将使用 InfiniBand 网路上的 DPU,使其 Lonestar6 系统成为云端原生超级运算的开发平台。
TACC 的 Lonestar6 为德州农工大学 (Texas A&M University)、德州理工大学 (Texas Tech University) 与北德州大学 (the University of North Texas) 的高效能运算研究人员,及众多研究中心与教职员提供服务。
讯息传递介面获得加速
德州往东北走 1,200 英里,俄亥俄州立大学 (Ohio State University) 的研究人员展示如何透过 DPU 让高效能运算中,最热门的程式设计模型之一的运行速度提高达 26%。
藉由卸载讯息传递介面 (Message Passing Interface;MPI) 的关键区段,他们加速许多大规模高效能运算模拟皆采用的 P3DFFT 函式库。
俄亥俄州立大学电脑科学与工程学系教授 Dhabaleswar K. (DK) Panda 表示:「DPU 就像为繁忙执行长处理工作的助理,因能够为所有作业负载加速而成为主流。」该名教授亦使用团队的 MVAPICH 开放原始码软体,率领 DPU 研究。
在高效能运算中心与云端应用 DPU
对於运行如药物开发或飞机设计等高效能运算模拟的超级电脑来说,两位数的效能提升影响深厚。收到不少高效能运算中心索取程式码要求的 Panda 教授表示:「任何取得此规模效能提升的云端服务,皆能为客户提高生产力。」
搭载如 NVIDIA SHARP 等功能的 Quantum InfiniBand 网路支援 Panda 教授的研究。
Panda 教授表示:「其他人仍在谈论网路内运算,但 InfiniBand 已支援此技术。」
杜伦大学支援负载平衡
有许多欧洲的研究团队正使用 BlueField DPU 加速 MPI 和其他高效能运算作业负载。
举例来说,位於北英格兰的杜伦大学 (Durham University) 正在开发软体,在 16 节点 Dell PowerEdge 丛集上使用 BlueField DPU,为 MPI 工作进行负载平衡。该专案的首席研究员 TobiasWeinzierl 表示:「这项研究将推动全球高效能运算设施,以更有效率的方式处理更好的演算法。」
剑桥与慕尼黑的 DPU 采用
剑桥、伦敦与慕尼黑的研究人员亦使用 DPU。
伦敦大学学院 (University College London) 正在探索如何在 BlueField-2 DPU 上为托管系统排程任务。此功能可应用於在托管处理器之间移动资料,以便在需要时使用。
剑桥资料驱动探索服务 Dell PowerEdge 伺服器内的 BlueField DPU 可卸载主机 CPU 的安全性政策、储存空间框架和其他作业,彻底发挥系统效能。
与此同时,慕尼黑工业大学 (Technical University of Munich) 的电脑架构和平行系统小组研究人员正寻找将 MPI 和作业系统任务卸载至 DPU 的方法,其亦为 EuroHPC 专案的一部分。
再回头看美国的案例,乔治亚理工学院 (Georgia Tech) 的研究人员正与桑迪亚国家实验室 (Sandia National Laboratories;SNL) 合作,使用 BlueField-2 DPU 加速分子动力学研究。一篇描述该研究的论文指出,目前的研究结果显示,演算法可以加速高达 20%,且不会影响模拟的准确度。
持续扩大的网路
本月初,日本研究人员宣布推出一款采用最新 NVIDIA H100 Tensor 核心 GPU 的系统,并搭载我们有史以来最快速且最聪明的网路 NVIDIA Quantum-2 InfiniBand 平台。
日本电气 (NEC) 将在筑波大学 (University of Tsukuba) 运算科学中心打造约 6 PFLOPS、采用 H100 的超级电脑。研究人员会将该超级电脑应用於气候学、天体物理学、巨量资料、人工智慧 (AI) 等领域。
同时,Panda 等研究人员已经在思考如何使用 BlueField-3 DPU 中的核心。
他打趣地说:「这就像是雇用具大学学历,而非只有高中学历的行政助理,我希??它能完成更多卸载作业。」