基于diffusion的diffsvc语音转换技术概要

2023-01-30 21:10 作者:IceKyrin 0人读过 | 我要投稿

1. 尊重版权，请使用授权数据进行ai训练

2. 基础概念

2.0. 本专栏旨在帮助快速了解diffsvc，想更深入学习可查阅文中相关教程&项目链接。

2.1. tts：即Text To Speech，从文本直接合成语音，如：Vits、Tacotron2

2.2. svc：即Singing voice conversion，在保证歌唱内容的同时,将音色从输入源转换到目标音色，可理解为变声器，如：sovits、diff-svc

2.3. svs：即Singing voice synthesis，是用于基于包括例如歌词、节奏、音高等信息的乐谱来生成虚拟歌声的技术，如：vocaloid、sv、diffsinger等

3. diff-svc应用示例

将他人录制的歌曲干声输入svc模型，可获得模型音色的输出、同时保留源数据的音高音准

4. 优势

4.0. 项目开源，代码、模型完全本地自主化，可低成本自行制作变声器

4.1. diffsvc使用扩散模型，适用于高质量的人声数据（声卡直出、无底噪混响）、还原度高

4.2. sovits3.0对低质量数据适应性好（少量噪音、混响、缺频），推理速度快；链接位于文末

5. 自制教程

5.1. 请使用授权数据训练，切勿给他人带来不必要的困扰！

5.2. 语雀教程

https://www.yuque.com/shaohuojie/ocfmc1

5.3. 对应代码

https://github.com/svc-develop-team/diff-svc

6. 原理

篇幅有限，详见：

https://github.com/openvpi/diff-svc/blob/main/doc/advanced_skills.markdown

7. 发展历程

7.1. prophesier将soft-vc与openvpi维护版的diffsinger相结合，发布了svc项目，作为长期稳定版

https://github.com/prophesier/diff-svc

7.2. 白叶开发的多种模型推理gui

8. 相关链接

8.1. tts：CjangCjengh维护的多语种vits，包括多种方言

https://github.com/CjangCjengh/vits

8.2. svc：花儿不哭开发的变声器，暂时仅开放推理

https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main

8.3. svs：openvpi维护的diffsinger

https://github.com/openvpi/DiffSinger

9. 注意事项

9.1. 本项目是基于学术交流目的建立，并非为生产环境准备，不对由此项目模型产生的任何声音的版权问题负责。

9.2. 如将本仓库代码二次分发，或将由此项目产出的任何结果公开发表(包括但不限于视频网站投稿)，请注明原作者及代码来源(此仓库)。

9.3. 如果将此项目用于任何其他企划，请提前联系并告知本仓库作者,十分感谢。

标签：变声器语音合成深度学习 diffsinger sovits diffsvc