【达芬奇jio本系列】AI：你们在聊什么？

2022-11-23 00:30 作者:张来吃 0人读过 | 我要投稿

今天来给大家安利一个大佬的开源项目

AI自动音频转写

帮助剪辑整理素材/搭时间线/拍字幕

Github项目指路

~~~~ github.com/octimot/StoryToolkitAI ~~~~

提到音频的转写，也就是拿音频来生成字幕的过程已经有很多现成的方案，小编此前就用过讯飞（收费、油管（白piao，到现在还有 Arctime，以及0成本的剪映。

它们用到的技术也越发先进，尤其是现在在AI的加持下，准确性也越来越高。所以今天的主角就叫做 StoryToolkitAI ，简单说来你可以看成是剪映的横向替代品，如果你和我一样也是有某种洁癖不想在电脑上安装它们的话

基础用法

类似其他各种解决方案那样，StoryToolkitAI 也需要你把工作时间线的声音单独输出（实时读取时间线上零零碎碎的各种编码的声音要求怕是太高了），当然是自动地，接下来会调用一个开源的识别引擎来分析声音，随后根据你的设定，把文字转写出来

作为一款针对达芬奇开发的工具而言，各种密切贴合达芬奇本体的功能自然少不了的

像是上图所示，识别到的句子默认情况下点击就能跳转到所在地；可以筛查/模糊查找所需的句子，或者应该说时间线上所需的时间点；或者按快捷键M给当前句子所在段落打上区间标记点

这些功能自然就能替代剪映这种完全属于外部的工具，能更好地帮助剪辑师（助理其实）整理一堆素材，尤其是纪录片、尤其是人物访谈这类内容；当然也可以导入现有的srt来帮助你改剪或者细化调整现有的对白字幕，从而满足审查要求之类的修改意见

这么厉害的工具怎么之前没有

这里头当然得益于达芬奇如今开放的几个API，能实现这些操作上的互通；关键是今年9月底发布的，看上去非常厉害的 OpenAI 的开源语音识别模型 Whisper。如果你之前用过剪映的语音识别效果的话，可以说 Whisper 的识别能力肯定不会比它弱

和剪映的结果相比主要差在断句的方法上

单看内容几乎一模一样

最近 StoryToolkitAI 的作者还给这个工具加上了 Prompt 一栏参数。了解过其他比如 AI 绘画的朋友们就可能知道你能靠 Prompt 来指引 AI 从而得到一个你期望的结果。但这个过程没有人知道会发生什么，AI 听不听你的话就很难说（欢迎来到人工智能的奇妙世界）

这还不火？

先端一杯冷水来）毕竟这个工具还只是作者刚发布不久的初具成效的版本，可能你看到这篇文章的时候已经更新不少内容了，所以大家可以先去项目主页看看作者写的超详细说明，以及对于软件产生的 bug 更多的宽容和理解

此外，软件的安装过程还需要一点额外的准备工作（ffmpeg），对于不熟悉这方面知识的人自然会有很多障碍，也就是还没能做到开箱即用，目前为止甚至开始识别之后才开始在后台下载识别模型文件，所以会让你第一次用的时候需要多等待一些时间

标签：

【达芬奇jio本系列】AI：你们在聊什么？的评论 (共条)