tacotron2/vits单人-无台词音频处理成数据集-工具包

封面:小蓝鸟@iktd13_
前言
前段时间剪音频,基于whisper-vits的脚本写了个笔记本自用,外面套了slicer2和demucs。现在整理成了可以发布的样子,相当于用一些没有台词的音频文件制作tacotron2/vits单人的训练数据集的在线GUI,可以把音频按台词切成片,当然你也可以拿来活字印刷或者机翻字幕等等。已经过一定测试,但不排除还有一些问题,欢迎反馈。
笔记本链接:https://colab.research.google.com/drive/1oM3HuRdGtONgpNNTredRCYeG_JrdF1be?usp=sharing
whisper-vits库作者视频:

使用说明
1. 把要处理的音频打包成压缩包上传到云端硬盘
2. “在云端硬盘中保存一份副本”

3. 一路按播放键向下执行,解压部分填刚才上传的压缩包的路径

4. 可选择使用 demucs 去除背景杂音

5. 可选择 slicer2 按音频中间的空白片段分割音频

6. 选择whisper转写方式:
填1 - whisper直接转写
填2 - whisper转写后调用whisper-vits库,按台词进一步分割音频

7. 开始whisper转写

8. 转写完成后导出保存到云盘

补充说明
1. demucs和slicer2可以自由选择,demucs默认放在前面以求slicer2分得更细
2. slicer2不是AI,是算法分割音频
3. 清除缓存会重置对应步骤产生的影响,但会删除对应步骤产生的数据,谨慎操作
4. 默认勾选 wv_show_log 以便于排错,如果觉得输出的东西太影响视野可以勾掉,还你一个清爽的界面
5. 如果执行过程中出现一时解决不了的错误想要保留中间产物,或者demucs分离人声后想要保留背景音,可以在导出时在 wv_export_way 填2,将过程中产生的所有文件打包保存到云盘
6. whisper转写有一定出错概率,能找到原台词一般还是原台词更好