欢迎光临散文网 会员登陆 & 注册

基于diffusion的diffsvc语音转换技术概要

2023-01-30 21:10 作者:IceKyrin  | 我要投稿

1. 尊重版权,请使用授权数据进行ai训练

2. 基础概念

2.0. 本专栏旨在帮助快速了解diffsvc,想更深入学习可查阅文中相关教程&项目链接。

2.1. tts:即Text To Speech,从文本直接合成语音,如:Vits、Tacotron2

2.2. svc:即Singing voice conversion,在保证歌唱内容的同时,将音色从输入源转换到目标音色,可理解为变声器,如:sovits、diff-svc

2.3. svs:即Singing voice synthesis,是用于基于包括例如歌词、节奏、音高等信息的乐谱来生成虚拟歌声的技术,如:vocaloid、sv、diffsinger等

3. diff-svc应用示例

     将他人录制的歌曲干声输入svc模型,可获得模型音色的输出、同时保留源数据的音高音准


4. 优势

4.0. 项目开源,代码、模型完全本地自主化,可低成本自行制作变声器

4.1. diffsvc使用扩散模型,适用于高质量的人声数据(声卡直出、无底噪混响)、还原度高

4.2. sovits3.0对低质量数据适应性好(少量噪音、混响、缺频),推理速度快;链接位于文末



5. 自制教程

5.1. 请使用授权数据训练,切勿给他人带来不必要的困扰!

5.2. 语雀教程

         https://www.yuque.com/shaohuojie/ocfmc1

5.3. 对应代码

         https://github.com/svc-develop-team/diff-svc

6. 原理

篇幅有限,详见:

https://github.com/openvpi/diff-svc/blob/main/doc/advanced_skills.markdown

7. 发展历程

7.1. prophesier将soft-vc与openvpi维护版的diffsinger相结合,发布了svc项目,作为长期稳定版

        https://github.com/prophesier/diff-svc

7.2. 白叶开发的多种模型推理gui

8. 相关链接

8.1. tts:CjangCjengh维护的多语种vits,包括多种方言

        https://github.com/CjangCjengh/vits

8.2. svc:花儿不哭开发的变声器,暂时仅开放推理

https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main

8.3. svs:openvpi维护的diffsinger

        https://github.com/openvpi/DiffSinger


9. 注意事项

9.1. 本项目是基于学术交流目的建立,并非为生产环境准备,不对由此项目模型产生的任何声音的版权问题负责。

9.2. 如将本仓库代码二次分发,或将由此项目产出的任何结果公开发表(包括但不限于视频网站投稿),请注明原作者及代码来源(此仓库)。

9.3. 如果将此项目用于任何其他企划,请提前联系并告知本仓库作者,十分感谢。


基于diffusion的diffsvc语音转换技术概要的评论 (共 条)

分享到微博请遵守国家法律