语音 AI 是对话式 AI 的一个子集,包括可将人类语音转换为文本的自动语音识别 (ASR) 和文本转语音 (TTS)。
语音 AI 系统包括两个主要组件:
典型 ASR 工作流的第一步是从输入音频中提取有用的特征。通常使用梅尔频谱图,以对数尺度表示音频中各种频率随时间变化的强度。然后,将梅尔频谱传递给预测每个字符概率的声学模型。
接下来,解码器获取每个时间步长的字符概率,将其转换为词语序列。
为了提高 ASR 模型的准确性,采用语言模型来预测句子的概率,并纠正声学模型的错误。
最后,标点和大写模型增强了文本的可读性,并应用反向文本规范化规则正确对文本编排格式(比如将“十点钟”转为 "10:00")。
TTS 工作流的第一步是文本准备。这个过程包括文本分析、识别和分析日期、货币金额和机场代码等表达,以及文本规范化,即将书面文本转换为语音形式,如展开缩写(比如将 "10 kg" 转换为“十公斤”)。
下一步是文本编码,将每个字符转换为数值,将文本转换为编码向量,输入到频谱图生成器中。
编码后,音高和时长预测器估计每个音素应该保持多长时间以及语音音高,以确保生成的语音中的自然韵律。然后将这些信息与编码文本一起馈送到频谱图生成器中,该生成器将文本转换为梅尔频谱图。
最后,用这些频谱图通过声码器模型生成听起来自然的语音。
语音 AI 通过自动执行通信任务并实现更高效、更智能的交互重塑了各行各业的工作流。
为了增强客户服务体验并加强客户关系,企业正在建立拥有特定领域内部知识和可辨识品牌调性的虚拟形象。借助 NIM、RAG 增强型大型语言模型、世界级完全可定制的多语言语音和翻译 AI,这些化身通过独特、高质量、定制的声音提供个性化的答案和建议。
虚拟助手运用于各个行业,可增强用户体验。ASR 用于为虚拟助手转录音频查询。然后,文本转语音为虚拟助手生成合成语音。除事务处理情境人性化外,虚拟助手还可以帮助视障人士与非盲文文本交互,帮助有发音障碍的人士与他人交流,帮助儿童学习阅读。
消费者希望客服中心坐席能够快速、高效地解决他们的问题。为了满足这些期望并提供出色的客户和坐席体验,各行各业的企业正在实施由 Riva 语音和翻译 AI 驱动的代理协助技术。
在全球经济中,企业每天举行数百万次在线会议,并为来自不同语言背景的客户提供服务。公司通过实时转录和翻译实现准确的实时带字幕直播,可适应全球各种口音并能识别特定领域的词汇。他们可以使用 LLM NIMs 进行总结并获得见解,确保有效的沟通和顺畅的全球互动。
越来越多的服务机器人出现在全球各地的医院、机场和零售店。它们可以处理餐厅和制造工厂的日常重复任务,协助客户找到商品,并在患者护理过程中为医护人员提供支持,从而帮助一线工作人员完成工作。
全球约有 1000 万呼叫中心坐席每天约回答 20 亿次呼叫。呼叫中心用例包括:
例如,自动语音识别转录客户和呼叫中心坐席之间的实时对话以进行文本分析,用于为坐席提供实时建议,从而快速解决客户查询。
在医疗健康领域,语音 AI 应用加强了患者与医疗专业人员和保险机构之间的沟通。ASR 可在医患对话期间自动做笔记,并自动为保险机构提取信息。
语音 AI 为全球受众实现了无缝内容本地化。例如,最初用日语制作的视频可以实时翻译并输出为葡萄牙语或西班牙语,从而增加访问量。无论是娱乐、播客还是教育资料,都能使用 AI 语音生成器为翻译后的内容配音,确保流畅、自然的体验。
此外,语音 AI 可以生成准确的视频转录文本,为有语音障碍的人士提升可及性。实时翻译、配音和转录的集成简化了视频编辑和内容创作工作流,为各种平台的多语言版本提供支持。