欢迎光临散文网会员登陆 & 注册

tacotron2/vits单人-无台词音频处理成数据集-工具包

2023-02-11 22:18 作者:夏夜有轻风 0人读过 | 我要投稿

封面：小蓝鸟@iktd13_

前言

前段时间剪音频，基于whisper-vits的脚本写了个笔记本自用，外面套了slicer2和demucs。现在整理成了可以发布的样子，相当于用一些没有台词的音频文件制作tacotron2/vits单人的训练数据集的在线GUI，可以把音频按台词切成片，当然你也可以拿来活字印刷或者机翻字幕等等。已经过一定测试，但不排除还有一些问题，欢迎反馈。

笔记本链接：https://colab.research.google.com/drive/1oM3HuRdGtONgpNNTredRCYeG_JrdF1be?usp=sharing

whisper-vits库作者视频：

使用说明

1. 把要处理的音频打包成压缩包上传到云端硬盘

2. “在云端硬盘中保存一份副本”

复制一份到自己的云端硬盘

3. 一路按播放键向下执行，解压部分填刚才上传的压缩包的路径

解压

4. 可选择使用 demucs 去除背景杂音

demucs 分离人声

5. 可选择 slicer2 按音频中间的空白片段分割音频

slicer2分割音频

6. 选择whisper转写方式：

填1 - whisper直接转写

填2 - whisper转写后调用whisper-vits库，按台词进一步分割音频

选择whisper转写方式

7. 开始whisper转写

whisper转写

8. 转写完成后导出保存到云盘

制作完成，保存到云盘

补充说明

1. demucs和slicer2可以自由选择，demucs默认放在前面以求slicer2分得更细

2. slicer2不是AI，是算法分割音频

3. 清除缓存会重置对应步骤产生的影响，但会删除对应步骤产生的数据，谨慎操作

4. 默认勾选 wv_show_log 以便于排错，如果觉得输出的东西太影响视野可以勾掉，还你一个清爽的界面

5. 如果执行过程中出现一时解决不了的错误想要保留中间产物，或者demucs分离人声后想要保留背景音，可以在导出时在 wv_export_way 填2，将过程中产生的所有文件打包保存到云盘

6. whisper转写有一定出错概率，能找到原台词一般还是原台词更好

标签：

tacotron2/vits单人-无台词音频处理成数据集-工具包的评论 (共条)