您选择的条件: 虎牙科技有限公司
  • MonTTS: 完全非自回归的实时、高保真蒙古语语音合成模型

    分类: 计算机科学 >> 计算机科学技术其他学科 提交时间: 2021-12-20

    摘要: 针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:1)难以实时合成;2)合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进:1)使用蒙古文音素序列来表征蒙古文发音信息;2)提出音素级的声学调节器以学习长时韵律变化;3)提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法。同时,该文构建了一个当前最大规模的蒙古语语音合成数据库:MonSpeech。实验结果表明MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score,MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonTTS合成实时率达3.63×10-3,满足实时高保真合成要求。最后,文中涉及的训练脚本和预训练模型全部开源(https://github.com/ttslr/MonTTS)。