烤肉man辅助脚本,AI听写转ASS字幕

烤肉的人里似乎有不少都在用AI了,AI流水线一条龙产出的大概也不少。
所以这个东西嘛不用是真的亏,烤肉人亏欠自己的够多了,还是要对自己好一点。
如果还有没用上的,可以试试下面介绍的脚本。
ykw-whisper
项目地址,https://github.com/tsukasalx/ykw-whisper
为音视频文件生成AI识别的ass字幕,当然是带时轴的。
前提是你有 win10 或 win11系统,并且安装的是nvidia显卡
至于安装,项目的说明应该写的很具体了,懂的人不用看,看的人不用懂
(概括起来就是在WSL2上跑Docker Desktop的容器,其他环境docker没有试,不好说能不能跑)
如果已经在用Docker Desktop了直接从 准备工作 的克隆仓库及其子模块开始就好。
只是安装的时候需要确认的有几点:
N卡驱动要更新
Docker Desktop不要安装4.17.1,会卡死,4.18已修复
wsl最终使用的是ubuntu系统
在所有准备工作完成后,
首次使用之前,先进入项目里的src目录,在wsl里运行 ./add_whisper_alias.sh 并关闭终端,之后就可以在本地的其他目录上方便的使用了。
届时只要在wsl运行诸如下列命令,就可以生成各个文件对应的ass文件了。
ykw-whisper file.mp4
ykw-whisper file.mp4 file2.mp3 file3.wav "honey file.ts"
ykw-whisper --model tiny file.mp4
一般来说需要修改的选项就 --model,这个是指AI模型大小,有从 tiny 到 large 的好几个级别,模型越大识别效果就越好,当然内存或显存占用也就越高。默认是使用gpu所以占用的是显存空间。

默认是 large,会占用10G空间,掂量下自己的硬件条件来选择合适的就行,90级别那种大显存的卡,直接省略这个参数就行。如果是显存比较捉急,但是内存有很多富余的话,也可以选择使用cpu来运行,那么就会使用的是内存的空间,但是耗费时间就自行体会吧。。。
ykw-whisper --device cpu file.mp4
whisper本身的其他选项都可以正常使用的,有特殊需求可以自行查看--help帮助。
在windows运行docker desktop本身也会占据一定的内存,在没有使用需求的时候可以自行关闭,但是下次要使用的时候记得让它保持运行状态,不然会报错提示找不到docker。