欢迎光临散文网 会员登陆 & 注册

tacotron2/vits单人-无台词音频处理成数据集-工具包

2023-02-11 22:18 作者:夏夜有轻风  | 我要投稿

封面:小蓝鸟@iktd13_

前言

前段时间剪音频,基于whisper-vits的脚本写了个笔记本自用,外面套了slicer2和demucs。现在整理成了可以发布的样子,相当于用一些没有台词的音频文件制作tacotron2/vits单人的训练数据集的在线GUI,可以把音频按台词切成片,当然你也可以拿来活字印刷或者机翻字幕等等。已经过一定测试,但不排除还有一些问题,欢迎反馈。

笔记本链接:https://colab.research.google.com/drive/1oM3HuRdGtONgpNNTredRCYeG_JrdF1be?usp=sharing

whisper-vits库作者视频:


使用说明

1. 把要处理的音频打包成压缩包上传到云端硬盘

2. “在云端硬盘中保存一份副本”


复制一份到自己的云端硬盘

3. 一路按播放键向下执行,解压部分填刚才上传的压缩包的路径

解压

4. 可选择使用 demucs 去除背景杂音

demucs 分离人声

5. 可选择 slicer2 按音频中间的空白片段分割音频

slicer2分割音频

6. 选择whisper转写方式:

填1 - whisper直接转写

填2 - whisper转写后调用whisper-vits库,按台词进一步分割音频

选择whisper转写方式

7. 开始whisper转写

whisper转写

8. 转写完成后导出保存到云盘

制作完成,保存到云盘

补充说明

1. demucs和slicer2可以自由选择,demucs默认放在前面以求slicer2分得更细

2. slicer2不是AI,是算法分割音频

3. 清除缓存会重置对应步骤产生的影响,但会删除对应步骤产生的数据,谨慎操作

4. 默认勾选 wv_show_log 以便于排错,如果觉得输出的东西太影响视野可以勾掉,还你一个清爽的界面

5. 如果执行过程中出现一时解决不了的错误想要保留中间产物,或者demucs分离人声后想要保留背景音,可以在导出时在 wv_export_way 填2,将过程中产生的所有文件打包保存到云盘

6. whisper转写有一定出错概率,能找到原台词一般还是原台词更好

tacotron2/vits单人-无台词音频处理成数据集-工具包的评论 (共 条)

分享到微博请遵守国家法律