安全、多租户、裸机性能, 适用于 AI、数据分析以及 HPC 应用程序。
云原生超级计算将高性能计算的强大性能与云计算服务的安全性和易用性融于一体。NVIDIA 云原生超级计算平台利用 NVIDIA® BlueField® 数据处理器 (DPU) 架构和高速、低延迟的 NVIDIA Quantum InfiniBand 网络,简单安全地提供裸机性能、用户管理和隔离、数据保护和按需高性能计算 (HPC) 和 AI 服务。
为提供更出色的性能,超级计算机需要提供多租户安全性,而理想的情况是通过云原生平台实现。实现这种架构转换的关键要素是 DPU。
作为一个完全集成的片上数据中心平台,DPU 能够为主机处理器卸载和管理数据中心基础设施,实现超级计算机的安全与编排。
此架构与 NVIDIA Quantum InfiniBand 交换相结合,能够提供理想的裸机性能,同时原生支持多节点租户隔离。
云原生超级计算系统专为在多租户环境中实现出色性能、安全性和编排而设计。
BlueField DPU 可以托管未受信任的多节点租户,同时确保将超级计算资源完全提供给新租户,而无先前的残留。为此,BlueField DPU 为新调度的租户提供干净的启动镜像,执行完全清理和重新建立信任,虚拟化存储,并授权访问经批准的存储区域。
HPC 和 AI 通信框架以及通讯库对延迟和带宽很敏感,对应用程序的性能有重要影响。
将通讯库从主机 CPU 或 GPU 卸载至 Bluefield DPU,能够针对通信和计算的并行处理创建高度重叠。它还能减少操作系统抖动的负面影响,并显著提高应用程序性能。这是启用新一代超级计算架构的关键所在。
俄亥俄州立大学的早期研究成果表明,与传统超级计算机相比,云原生超级计算机执行高性能计算任务的性能可提高 1.3 倍。
1俄亥俄州立大学在 HPC-AI Advisory Council 的集群中心执行性能测试,测试时使用了以下系统配置:32 台服务器,采用双插槽 Intel Xeon 16 核 CPU E5-2697A V4 @ 2.60GHz(每节点共 32 个处理器)、256GB DDR4 2400MHz RDIMM 内存,以及每节点 1TB 7.2K RPM SATA 2.5 英寸硬盘。这些服务器使用 NVIDIA BlueField-2 InfiniBand HDR100 DPU 和 NVIDIA Quantum QM7800 40 端口 HDR 200Gb/s InfiniBand 交换机进行连接。
NVIDIA Quantum-2 InfiniBand 平台提供创新的主动监控和拥塞管理,以实现流量隔离,几乎完全消除性能抖动,确保可预测的性能,就像应用程序在专用系统上运行一样。
NVIDIA BlueField DPU 将先进的 NVIDIA ConnectX® 网卡、配备 PCIe 子系统的一组 Arm 核和定制设计的高性能计算硬件加速引擎相结合,实现片上数据中心基础设施的完全可编程性。
NVIDIA Quantum InfiniBand 网络可加速并卸载数据传输,确保不会因数据或带宽限制而使计算资源“挨饿”。NVIDIA Quantum InfiniBand 网络可以在不同的用户或租户之间进行分区,提供安全性和服务质量 (QoS) 保证。
NVIDIA DOCA SDK 使基础设施开发者能够利用行业标准 API,在 NVIDIA BlueField DPU 上快速创建网络、存储、安全、管理以及 AI 和 HPC 等各种应用程序和服务。借助 DOCA,开发者可以通过创建高性能、软件定义和云原生 DPU 加速的服务,对未来的超级计算基础设施进行编程。
NVIDIA MAGNUM IO™ 软件开发套件 (SDK) 使开发者能够优化应用程序中的输入/输出 (IO),从而减少其工作流程中的端到端时间。
Magnum IO 涵盖 IO 的方方面面,包括存储、网络、多 GPU 和多节点通信。其还包含用于配置和优化应用程序以消除 IO 瓶颈的工具。