TTS 工作流的第一步是文本准备。这个过程包括文本分析、识别和分析日期、货币金额和机场代码等表达,以及文本规范化,即将书面文本转换为语音形式,如展开缩写(比如将 "10 kg" 转换为“十公斤”)。
下一步是文本编码,将每个字符转换为数值,将文本转换为编码向量,输入到频谱图生成器中。
编码后,音高和时长预测器估计每个音素应该保持多长时间以及语音音高,以确保生成的语音中的自然韵律。然后将这些信息与编码文本一起馈送到频谱图生成器中,该生成器将文本转换为梅尔频谱图。
最后,用这些频谱图通过声码器模型生成听起来自然的语音。