NVIDIA Unified Fabric Manager (UFM)

探索融合了网络智能和分析的网络管理平台。

NVIDIA UFM® 平台将增强的实时网络遥测与 AI 驱动的网络智能和分析相结合,为数据中心网络管理带来革新,从而支持横向扩展的 InfiniBand 数据中心。

 

简化数据中心管理

UFM 平台可助力科研和企业数据中心操作人员对 InfiniBand 高性能数据中心网络进行高效调配、监控、管理以及预防性故障排除并进行维护。UFM 平台包含多个不同级别的解决方案和全面的功能集,可满足广泛的现代横向扩展数据中心需求。使用 UFM,您可以实现更高的网络资源利用率,充分发挥网络的先进特性,减少整体运营支出。

UFM 平台拥有健壮的图形用户界面 (GUI)

UFM 平台具有强大的图形用户界面 (GUI)

 

通过 60 天 UFM Enterprise 软件的免费试用,了解管理、监控和维护 InfiniBand 数据中心有多简单。

UFM 平台产品套件

UFM Telemetry
实时监控

UFM Telemetry 平台提供网络验证工具监控网络性能和状况。它同时还能捕获丰富的实时网络遥测信息、应用程序工作负载使用情况以及系统配置,并可以通过流式传输到用户自建的或云上的数据库,以便做进一步分析。

 

可通过软件容器或专用设备获取。

 

主要特性:

  • 交换机、适配器和线缆遥测
  • 系统验证
  • 网络性能测试
  • 将遥测信息流式传输到用户自建的或云上的数据库

UFM Enterprise
网络可视化和控制

UFM Enterprise 在 UFM Telemetry 的基础上,增加了增强的网络监控和管理功能。它实现了自动化网络发现和调配、流量监控和拥塞发现。

 

可通过软件容器或专用设备获取。

 

主要特性:

  • 包含 UFM Telemetry 的功能
  • 自动化网络发现和验证
  • 安全线缆管理
  • 拥塞追踪以诊断流量瓶颈
  • 问题识别和解决
  • 全球软件更新
  • 与 Slurm 和 Platform LSF 集成的作业调度器调配
  • 高级报告和丰富的 REST API
  • 基于 Web 的丰富的 GUI

UFM Cyber-AI
网络智能和分析

UFM Cyber-AI 在 UFM Telemetry 和 UFM Enterprise 的基础上进一步增强,进行预防性维护和网络安全,从而降低超级计算运营支出。

 

可通过本地专用的 UFM Cyber-AI 设备获取。

 

主要特性:

  • 包含 UFM Telemetry 和 UFM Enterprise 的功能
  • 检测随时间推移的性能退化或使用配置文件的变化
  • 检测异常集群行为
  • 使用 AI 建立现象(看似不相关)之间的相关性
  • 报告预防性维护的警报
  • 借助持续的系统数据采集,优化可预测性

NVIDIA UFM SDK

NVIDIA Net working Care—Monitoring and Network Operations Center (NOC) Services

适用于 NVIDIA InfiniBand 集群的全套工具和插件

NVIDIA UFM SDK 提供大量专为开源平台设计的第三方插件,例如 Grafana、FluentD、Zabbix 和 Slurm。这些工具和插件可提高开发人员的工作效率,并提供与 UFM REST API 的高效、用户友好的集成。查看我们的应用程序生命周期管理 (ALM) 和问题检测与解决 (PDR) 预测性维护插件。这些插件有助于在问题出现之前进行预测,并保持最佳网络性能。

资源

了解如何构建更高效的高性能网络。

配置您的集群

参加网络课程

准备购买?