【达芬奇jio本系列】AI:你们在聊什么?
今天来给大家安利一个大佬的开源项目
AI自动音频转写
帮助剪辑整理素材/搭时间线/拍字幕

Github项目指路
~~~~ github.com/octimot/StoryToolkitAI ~~~~
提到音频的转写,也就是拿音频来生成字幕的过程已经有很多现成的方案,小编此前就用过讯飞(收费、油管(白piao,到现在还有 Arctime,以及0成本的剪映。
它们用到的技术也越发先进,尤其是现在在AI的加持下,准确性也越来越高。所以今天的主角就叫做 StoryToolkitAI ,简单说来你可以看成是剪映的横向替代品,如果你和我一样也是有某种洁癖不想在电脑上安装它们的话
基础用法
类似其他各种解决方案那样,StoryToolkitAI 也需要你把工作时间线的声音单独输出(实时读取时间线上零零碎碎的各种编码的声音要求怕是太高了),当然是自动地,接下来会调用一个开源的识别引擎来分析声音,随后根据你的设定,把文字转写出来

作为一款针对达芬奇开发的工具而言,各种密切贴合达芬奇本体的功能自然少不了的
像是上图所示,识别到的句子默认情况下点击就能跳转到所在地;可以筛查/模糊查找所需的句子,或者应该说时间线上所需的时间点;或者按快捷键M给当前句子所在段落打上区间标记点

这些功能自然就能替代剪映这种完全属于外部的工具,能更好地帮助剪辑师(助理其实)整理一堆素材,尤其是纪录片、尤其是人物访谈这类内容;当然也可以导入现有的srt来帮助你改剪或者细化调整现有的对白字幕,从而满足审查要求之类的修改意见
这么厉害的工具怎么之前没有

这里头当然得益于达芬奇如今开放的几个API,能实现这些操作上的互通;关键是今年9月底发布的,看上去非常厉害的 OpenAI 的开源语音识别模型 Whisper。如果你之前用过剪映的语音识别效果的话,可以说 Whisper 的识别能力肯定不会比它弱

和剪映的结果相比主要差在断句的方法上
单看内容几乎一模一样
最近 StoryToolkitAI 的作者还给这个工具加上了 Prompt 一栏参数。了解过其他比如 AI 绘画的朋友们就可能知道你能靠 Prompt 来指引 AI 从而得到一个你期望的结果。但这个过程没有人知道会发生什么,AI 听不听你的话就很难说(欢迎来到人工智能的奇妙世界)
这还不火?
先端一杯冷水来)毕竟这个工具还只是作者刚发布不久的初具成效的版本,可能你看到这篇文章的时候已经更新不少内容了,所以大家可以先去项目主页看看作者写的超详细说明,以及对于软件产生的 bug 更多的宽容和理解
此外,软件的安装过程还需要一点额外的准备工作(ffmpeg),对于不熟悉这方面知识的人自然会有很多障碍,也就是还没能做到开箱即用,目前为止甚至开始识别之后才开始在后台下载识别模型文件,所以会让你第一次用的时候需要多等待一些时间
