适用于现代 GPU 加速型数据中心的 IO 子系统
该全新计算单元为数据中心,其核心为 NVIDIA GPU 和 NVIDIA 网络。加速计算要求加速输入/输出 (IO),以更大限度提升性能。现代数据中心的 IO 子系统 NVIDIA Magnum IO™ 是适用于并行异步智能数据中心 IO 的架构,能更大限度提升存储和网络 IO 性能,为多 GPU、多节点加速提供支持。
Magnum IO 是数据中心的 IO 子系统,它引入了新的增强功能,以加速多租户数据中心的 IO 通信,称为云原生超级计算 Magnum IO 技术。
运行在 InfiniBand 网络上的 Magnum IO GPUDirect 助力实现 Verizon 的突破性分布式立体视频(volumetric video)架构。通过将其技术应用到位于美国各地的体育中心和 Verizon 设施的边缘计算中心,他们能够为媒体带来3D体验,可将您置身其中,为您提供全新的体验方式。
绕过 CPU,在 GPU 显存、网络和存储中实现直接 IO,进而将带宽提升至十倍。
通过减少 CPU 争用构建更平衡的 GPU 加速型系统,可提供最大 IO 带宽,使 CPU 核心数减少至十分之一,CPU 利用率降低至三十分之一。
提供适用于现有和未来平台的优化实现,无论数据传输是细粒度的延迟敏感型,还是粗粒度的带宽敏感型,抑或是两者混合型。
Magnum IO 利用存储 IO、网络 IO、网内计算和 IO 管理,简化并加速多 GPU、多节点系统的数据传输、访问和管理。Magnum IO 支持 NVIDIA CUDA-X™ 库,并充分利用各类 NVIDIA GPU 和 NVIDIA 网络硬件拓扑来实现更高的吞吐和更低的延迟。
[开发者博客] Magnum IO:加速现代数据中心内的 IO
在多节点、多 GPU 系统中,运行缓慢的 CPU 单线程性能严重影响了从本地或远程存储设备访问数据的效率。借助存储 IO 加速,GPU 可绕过 CPU 和系统内存,通过八个 200Gb/s NIC 访问远程存储,实现高达 1.6Tb/s 的原始存储带宽。
相关技术包括:
NVIDIA NVLink® 架构和基于 RDMA 的网络 IO 加速可降低 IO 开销,绕过 CPU,并实现 GPU 到 GPU 的线速直接数据传输。
网内计算可实现网络内处理,消除遍历端点或过程中发生跳跃导致的延迟。数据处理单元 (DPU) 采用软件定义、网络硬件加速的计算,包括预配置的数据处理引擎和可编程引擎。
用户需要先进的遥测和深度故障排除技术,才能实现计算、网络和存储等各类 IO 优化。Magnum IO 管理平台可助力研究和工业数据中心操作人员对现代数据中心架构进行高效预配、监控与管理以及预防性维护。
Magnum IO 可与 NVIDIA CUDA-X 高性能计算 (HPC) 和人工智能 (AI) 库交互,加速 IO,使其用于各类用例,涵盖 AI 和科学可视化等领域。
目前,数据科学和机器学习 (ML) 是计算能力需求最大的领域。预测式 ML 模型的准确性即便提升微小,最少也能带来数十亿美元的价值。为提升准确性,RAPIDS™ 加速器库基于 UCX 构建了内置 Apache Spark shuffle,可将其配置为利用 GPU 对 GPU 通信和 RDMA 功能。NVIDIA 数据中心平台与 NVIDIA 网络、Magnum IO 软件、GPU 加速型 Spark 3.0 和 RAPIDS 相结合,具有独特的优势,能够以出色的性能和效率加速这些大规模工作负载。
Adobe 借助 Databricks 上的 Spark 3.0,将模型训练速度提升了七倍,同时节省了 90% 的成本
为点燃新一代发现的火花,科学家们希望通过仿真,更好地理解复杂分子结构以支持药物发现,理解物理现象以寻找新能源,理解大气数据以更好地预测极端天气状况。Magnum IO 提供硬件级加速引擎和智能分流,例如 RDMA、GPUDirect 和 NVIDIA SHARP 功能,同时支持 400Gb/s 高宽带和 NVIDIA Quantum 2 InfiniBand 网络超低延迟。
使用多租户时,各用户应用程序可能并不知晓相邻应用程序流量的不加选择的干扰。在新 NVIDIA Quantum 2 InfiniBand 平台上的 Magnum IO,具有新的改进功能,能够减轻对用户性能的负面影响。这可以实现理想结果,并取得任何规模下高性能计算 (HPC) 和机器学习部署的更高效率。
规模最大的交互式立体数据可视化 - 150TB 的 NASA 火星着陆器仿真
当今的 AI 模型需要应对对话式 AI 和深度推荐系统等新型挑战,这促使其复杂度持续呈爆炸式增长。与 ResNet-50 等图像分类模型相比,训练 NVIDIA Megatron-BERT 等对话式 AI 模型所需的算力增加了 3000 多倍。研究人员需要强大的性能和巨大的可扩展性,才能不断在 AI 领域取得突破性进展。HDR 200Gb/s InfiniBand 网络和 Magnum IO 软件堆栈结合后,可实现单集群中数千台 GPU 的高效可扩展性。
Facebook 数据中心的深度学习训练:纵向扩展和横向扩展系统的设计
注册以获取新闻和更新。
便于 IO 直接传输到 GPU 显存,消除了往返 CPU 或系统内存的昂贵数据路径瓶颈。避免了通过系统内存额外进行复制的延迟开销,这会影响较小的传输,并通过提供更大的操作独立性,解决 CPU 利用率瓶颈。
了解详情 ›
阅读博文:GPUDirect Storage:存储和 GPU 显存之间的直接路径 (GPUDirect Storage: A Direct Path Between Storage and GPU Memory)
观看网络研讨会:NVIDIA GPUDirect Storage:加快通往 GPU 的数据路径
逻辑上将 NVMe over Fabrics (NVMe-oF) 等网络存储用作本地 NVMe 驱动,可使主机 OS/Hypervisor 使用标准 NVMe 驱动而非远程网络存储协议。
一套资源库和经过优化的 NIC 驱动程序,用于在用户空间实现数据包快速处理,可为高速网络应用提供框架和通用 API。
为网络适配器提供权限,使其可直接在同级设备中读取或写入内存数据缓冲区。允许基于 RDMA 的应用使用同级设备的计算能力,而无需通过主机内存复制数据。
开源生产级通信框架,用于以数据为中心的高性能应用。包含一个低层级接口,可提供底层硬件支持的基本网络操作。软件包包括:MPI 和 SHMEM 库、统一通信 X (UCX)、NVIDIA SHARP、KNEM 和标准 MPI 基准。
通过相互通信的处理器之间的紧密同步,实现拓扑感知型通信原语。
提供基于 OpenSHMEM 标准的编程接口,为分布于多个服务器的多个 GPU 显存中的数据构建全局地址空间。
阅读博客:使用 NCCL 加速 NVSHMEM 2.0 团队集合
开源生产级通信框架,用于以数据为中心的高性能应用。包含一个低层级接口,可提供底层硬件支持的基本网络操作。还包含一个高层级接口,用于构建 MPI、OpenSHMEM、PGAS、Spark 以及其他高性能和深度学习应用中使用的协议。
加速交换和数据包处理的众多功能。ASAP2 可将数据操控和安全功能从 CPU 分流至网络中,从而能够提升效率、加强控制,并将其与恶意应用隔离。
The NVIDIA® BlueField DPU® 分流 CPU 中的关键网络、安全和存储任务,是解决现代数据中心中性能、网络效率和网络安全问题的卓越解决方案。
减少 MPI 通信时间,改善计算和通信之间的重叠问题。NVIDIA Mellanox InfiniBand 适配器用其将 MPI 消息处理从主机上分流到网卡上,实现 MPI 消息的零复制。
提升 MPI、SHMEM、NCCL 和其他用例中的数据规约与聚合算法的性能,方法是将这些算法从 GPU 或 CPU 分流到网络交换元素,并消除在端点之间多次发送数据的需求。SHARP 集成可将 NCCL 性能提升四倍,MPI 集合延迟方面则会获得七倍的性能提升。
实现以太网解决方案的网络编排、预配、配置管理、架构运行情况的深入可见性、流量利用率以及管理。
为 InfiniBand 提供数据中心中架构的调试、监控、管理和高效预配功能。借助 AI 助力的网络智能和分析,支持实时网络遥测。