虚拟数字助理

虚拟数字助理是一种能够理解自然语言并可以根据语音命令回答问题或完成任务的程序。

什么是虚拟助理?

Siri、Alexa、Google Home 和 Cortana 等虚拟数字助理使用对话式 AI 来识别和响应语音命令,以执行电子任务。对话式 AI 是使用机器学习来开发基于语言的应用程序,使人类能够通过语音与设备、机器和计算机进行自然交互。当虚拟助理早上唤醒您时,您可以使用对话式 AI。您用正常的声音说话,设备会理解,找到最佳答案,然后以自然发音的语音回复您。

虚拟数字助理本质上是支持语音的云端应用程序前端。此软件通常嵌入智能手机、平板电脑、台式电脑,在某些情况下也会嵌入专用设备。在大多数情况下,助理会连接到互联网以访问识别语音和执行查询所需的基于云的后端。对话式 AI 背后的技术十分复杂,涉及一个多步骤过程,需要大量的功耗计算,并且要在 300 毫秒内完成大量计算,才能提供优质的用户体验。

亚马逊的 Alexa、Apple 的 Siri 和微软的 Cortana 等虚拟个人助理经过调整,可以响应简单的请求,而无需将上下文从一个对话带入到下一个对话。虚拟客户助理是一种更专业的个人助理版本,它能够理解上下文,从一个互动到下一个互动进行对话。另一种专门的对话式 AI 形式是虚拟员工助理,它可以了解员工与软件应用程序和工作流程之间的互动情况,并提出改进建议。虚拟员工助理广泛用于机器人流程自动化这一热门的新软件类别。

为何选择虚拟助理和对话式 AI?

对数字语音助理的需求正在不断增加:Juniper Research 公司估计,到 2023 年,使用数字语音助理的用户将多达 80 亿,是 2018 年底 25 亿用户的三倍多。向在家工作、远程医疗和远程学习的转变,致使人们对基于语言的定制 AI 服务的需求急速增加,从客户支持到实时转录和视频通话摘要,保证了人们的生产力和联系。

从语音助手到支持客户自助服务的问答系统等领域,对于对话式 AI 的使用每天都在增加。将对话式 AI 应用到其解决方案中的行业范围很广,涵盖金融和医疗健康等多个领域。在不方便使用屏幕或键盘时,或者在开车等危险情况下,这项技术尤为实用。虚拟助理已经在智能手机中随处可见。随着其广泛应用成为主流,并且在家庭、汽车和办公室设备中广泛部署,学术界和业界已加大对此领域的研究力度。

对话式 AI 的工作原理

虚拟助理需要大量数据,并包含多项人工智能功能。算法使助理能够从请求中学习,并通过上下文改进其响应,例如根据先前的查询提供答案。

典型的对话式 AI 应用程序使用三个子系统来处理和转录音频,即理解提出的问题(获取含义)、生成回复(文本),然后将回复反馈给人类。通过多个深度学习解决方案协同工作来实现这些步骤。首先,自动语音识别 (ASR) 用于处理原始音频信号,并从中转录文本。其次,自然语言处理 (NLP) 或自然语言理解 (NLU) 用于从转录文本(ASR 输出)中获得含义。最后,语音合成或文本转语音 (TTS) 用于从文本中人工生成人类语音。各步骤均需构建和使用一个或多个深度学习模型,因此优化此多步骤流程非常复杂。

深度学习模型能对众多上下文和语言准确进行泛化处理,因此应用于 NLU。Transformer 深度学习模型,如 BERT(Transformer 双向编码器表征模型),是时间递归神经网络的一个替代方案,它应用了一种注意力技术 – 通过将注意力集中在前后最相关的词上来解析一个句子。BERT 通过在问答 (QA)、实体识别、意图识别、情感分析等基准上提供与人类基准相媲美的准确性,彻底改变了 NLU 的进展。

GPU:对话式 AI 的关键

对话式需要庞大的计算能力,并且需要在不到 300 毫秒的时间内交付结果。

一个由数百个核心组成的 GPU,可以并行处理数千个线程。GPU 已成为训练深度学习模型和执行推理的首选平台,因为它们的性能比纯 CPU 平台高 10 倍。

CPU 与 GPU 的区别。

NVIDIA GPU 加速的对话式 AI 工具

借助对话式 AI 部署服务似乎比较困难,但 NVIDIA 现已具备能够简化这一流程的工具,包括一项名为 NVIDIA Riva 的新技术。

NVIDIA Riva,一个有助于部署对话式 AI 的工具。

NVIDIA Riva 是一种使用 GPU 加速的应用程序框架,允许公司使用视频和语音数据,为自己的行业、产品和客户定制先进的对话式 AI 服务。

该框架为对话式 AI 提供了端到端的深度学习流程。它包含先进的深度学习模型,例如用于自然语言理解的 NVIDIA Megatron BERT。企业可以利用 NVIDIA NeMo 进一步在数据上调优这些模型,利用 NVIDIA® TensorRT 优化推理,并使用 NVIDIA GPU Cloud™ (NGC) 上的 Helm 图表(NVIDIA 的 GPU 优化软件目录)在云端和本地部署。

使用 Riva 构建的应用程序可以利用新款 NVIDIA A100 Tensor Core GPU 中的创新技术进行 AI 计算,并利用 NVIDIA TensorRT 的新型优化技术进行推理。这使得使用功能强大的视觉和语音模型能够运行整个多模态应用程序,并且速度比实时交互的 300 毫秒阈值还要快。

Riva 用例

世界各地的公司正在使用 NVIDIA 对话式 AI 平台来改善其服务。

东芝 (Toshiba)、AT&T 和其他先进的公司都在使用 Voca 的 AI 虚拟代理 –利用 NVIDIA 进行更快、更具交互性以及类似人类的互动。Voca 利用 AI 来理解客户的对话和语音的全部意图。这使得智能体可以自动识别不同的音调和声音线索,从而区分客户说的话以及客户话里的含义。此外,他们还可以利用 NVIDIA AI 平台内置的可扩展性功能来大大缩短客户的等待时间。

Kensho 位于马萨诸塞州剑桥市 S&P Global 创新中心,它部署了可扩展的机器学习和分析系统。Kensho 使用 NVIDIA 的对话式 AI 开发了 Scribe,这是一种用于金融和商业的语音识别解决方案。借助 NVIDIA,Scribe 在盈利电话会议和类似的财务音频方面的准确度比其他商业解决方案高出高达 20%。

Square 创建了一个 AI 虚拟助理,允许 Square 卖家使用 AI 自动确认、取消或更改与客户的约会。这使他们能够开展更具战略性的客户互动。借助 GPU,Square 能够以比 CPU 快 10 倍的速度训练模型,从而提供更准确、更像人类一样的互动。

后续步骤

如需了解详情,请参阅:

了解详情:

  • GPU 加速数据中心可以用更少的服务器、更小的地面空间和更低的功耗来提供前所未有的性能。NVIDIA GPU Cloud 免费提供大量软件库,以及用于构建充分利用 GPU 的高性能计算环境的工具。
  • NVIDIA CUDA-X AI 软件加速库在机器学习 (ML) 中使用 GPU 来加速工作流程并实现模型优化。
  • RAPIDS 开源软件库套件基于 CUDA 而构建,使您能够完全在 GPU 上执行端到端数据科学和分析流程,同时仍然使用 Pandas 和 Scikit-Learn API 等熟悉的界面。
  • MXNet、PyTorch、TensorFlow 等广泛使用的深度学习框架依赖于 NVIDIA GPU 加速库,能够提供高性能的多 GPU 加速训练。
  • NVIDIA 深度学习培训中心 (DLI) 提供由导师指导式基本工具和技术实战培训,可用于构建基于 Transformer 的自然语言处理模型,完成文档分类等文本分类任务。