欢迎光临散文网 会员登陆 & 注册

在线语音合成:突破口语限制,为生活开启无限想象

2023-03-24 18:02 作者:讯飞开放平台  | 我要投稿

随着科技的不断发展,人们对于交流方式的需求也在不断升级。语音成为一种越来越受人们关注的交互方式。在线语音合成技术的应用领域也越来越广泛,为不同群体的人们带来更多便利和趣味。

在线语音合成技术的核心是说话人转换,即提取一位说话者的声音和语音特点,并使用算法生成新的语音。这意味着每个人都可以用自己的声音来朗读文章、播报节目,甚至为动画游戏和语音助手创造独特的声音角色。在线语音合成技术为人们带来了自由和随心所欲的交流方式,突破了口语限制。

智能语音技术领域在语音合成通用框架方面做出了丰富的工作,包括VITS等端到端建模和韵律表征技术。科大讯飞在线语音合成推出了新一代语音合成引擎——聆系列主播,结合SMART-TTS框架和虚拟音色生成技术。

SMART-TTS框架将语音合成过程进行模块化拆解,通过预训练和加强学习来提升语音合成性能。SMART-TTS框架中,文本编码预训练阶段包含了跟发音韵律相关的信息,韵律特征提取时采用对比学习方式,有利于增强语音韵律的表征能力,VAE等编码技术可以在编码基础上帮助恢复声学特征。SMART-TTS框架已在许多产品中得到应用,可以在讯飞开放平台、学习强国和讯飞有声APP等地方感受语音合成效果。

科大讯飞在线语音合成还开发了虚拟音色生成技术构建语音模型。通过音色编码模块提取音色相关表征,然后在隐层表征空间投影、联合文本表征和韵律表征做语音合成,训练还会标注音色特征标签,便于配置音色控制标签生成,提高指示性和内插等属性。目前,已有超过500个符合音色控制标签的合成音色,其自然度超过了4.0MOS。

聆系列主播是一种新一代智能语音合成引擎,用户可以直接体验语音合成效果。科大讯飞在线语音合成技术可以在讯飞开放平台官网进行体验,在线语音合成技术给人们带来了更多的便利和创意,在交流方式的选择上更加灵活和多样化。

点击下方链接即可体验

https://t.xfyun.cn/u7quUDq

在线语音合成:突破口语限制,为生活开启无限想象的评论 (共 条)

分享到微博请遵守国家法律