好用的字幕/打轴工具:Openai whisper
上个视频实践了下 OpenAI Whisper ,这个工具拿来打轴真的好用,其中的 large、medium 模型相较网易见外、剪映对于英文字幕稀碎的断句有极大的提升(差不多 90% 以上的句子不需要重新调时间轴),极大减少调整时间轴的工作量。单词准确性方面甚至比 youtube 的自动字幕更强一点(甚至可以识别出很大一部分例如 Baneling 、 Auto-Turret 这类游戏内专有名词,而国内的服务完全不行),进一步减少调整字幕的耗时。
目前网易见外字幕生成已经不免费,剪映则是要第三方工具来导出字幕,而且两者和 Google 、微软的服务一样,都需要上传自己的数据。而 OpenAI Whisper 完全开源免费,所有的数据不需要上传,在本地即可处理,速度更是完全超越网易见外,比剪映也快不少(显卡不同,速度也不同。CPU也可以处理,就是慢一点。medium 模型显存占用 6G,large 显存占用在 12G 以内)。
缺点是它的多语言的翻译支持只能是其他语言翻译为英文,官方说暂时还不能完成英文翻译到中文这种任务(中文语音生成中文字幕还是可以的)。如果中间有大段(20秒以上)的无对话片段,识别时会重复之前的字幕,需要用其他手段识别字幕区间。而且有时候 large 模型的断句反而不如 medium,这种情况多出现在剪辑过的片段中。推测可能的原因是 large 模型需要联系较长的上下文,如果视频由较短的片段拼凑起来,那么上下文就会比较混乱,导致 medium 的断句反而更优。
即便如此,OpenAI Whisper 也是做英文字幕/打轴首选的工具。这大概是普通人能享受到的为数不多的红利了吧。