借助对话式 AI 部署服务似乎令人生畏,但 NVIDIA 拥有可以简化这一过程的工具,包括神经模组(简称 NeMo)和一项名为 NVIDIA Riva 的新技术。为节省时间,预训练模型、训练脚本和性能结果可在 NVIDIA GPU Cloud (NGC) 软件中心获得。
NVIDIA Riva 是一种 GPU 加速应用程序框架,允许公司使用视频和语音数据,为自己的行业、产品和客户定制最先进的对话式 AI 服务。
Riva 提供用于对话式 AI 的端到端深度学习流程。它包含先进的深度学习模型,例如用于自然语言理解的 NVIDIA Megatron BERT。企业可以利用 NVIDIA NeMo 进一步在数据上调优这些模型,利用 NVIDIA TensorRT™ 优化推理,并利用 NGC(NVIDIA 的 GPU 优化软件目录)上提供的 Helm 图表在云端和边缘进行部署。
使用 Riva 构建的应用程序可以利用新款 NVIDIA A100 Tensor Core GPU 中的创新技术进行 AI 计算,并利用 NVIDIA TensorRT 的新型优化技术进行推理。这使得使用功能强大的视觉和语音模型能够运行整个多模态应用程序,并且速度比实时交互的 300 毫秒阈值还要快。
NVIDIA GPU 加速的端到端数据科学
基于 CUDA 构建的 RAPIDS™ 开源软件库套件使您能够完全在 GPU 上执行端到端数据科学和分析流程,同时仍然使用 Pandas 和 Scikit-Learn API 等熟悉的界面。
NVIDIA GPU 加速的深度学习框架
GPU 加速深度学习框架为设计和训练自定义深度神经网络带来灵活性,并为 Python 和 C/C++ 等常用编程语言提供编程接口。MXNet、PyTorch、TensorFlow 等广泛使用的深度学习框架依赖于 NVIDIA GPU 加速库,能够提供高性能的多 GPU 加速训练。
对话式 AI 在 NVIDIA 平台的未来
推动基于 Transformer 语言网络(如 BERT 和 GPT-2 8B)的大规模性能的要求,即其纯粹的复杂性以及对庞大数据集的预训练。这种组合需要一个可靠的计算平台来处理所有必要的计算,以推动快速执行和准确性。这些模型可以在大量无标记数据集上工作,这使得它们成为现代 NLP 的创新中心,而且,对于即将在众多用例中采用对话式 AI 应用程序的新一波智能助手来说,这是一个强有力的选择。
带有 Tensor Core 体系架构的 NVIDIA 平台提供可编程性,以加速各种不同的现代 AI,包括基于 Transformer 的模型。此外,数据中心规模设计和 DGX SuperPOD™ 的最优化,与软件库和先进 AI 框架的直接支持相结合,为开发者提供了无缝的端到端平台,以承担艰巨的 NLP 任务。
NGC(NVIDIA 加速软件中心)免费提供持续优化,以便加速 BERT 和 Transformer 在多个框架上的 GPU 训练。
NVIDIA TensorRT 包括对 BERT 和基于 Transformer 的大型模型运行实时推理的优化。如需了解更多信息,请查看我们的“对话式 AI 实时 BERT 推理”博客。NVIDIA 的 BERT GitHub 仓库今天也有代码,可以重现本博客中引用的单节点训练性能,在不久的将来,该仓库将更新必要的脚本,以重现大规模训练性能的数字。关于 NVIDIA 研究团队在 Megatron 项目上的 NLP 代码,请前往 Megatron 语言模型 GitHub 仓库查看。