高效制作主播二创语音素材
截取主播直播时的音频制作二创是一个非常辛苦的体力活。如果要制作长篇幅的二创配音视频,除印象深刻的名场面外,还需要大量直播中主播的语音作为备选素材,整个过程与最喜欢的歌当作起床闹钟的讨厌程度相比有过之无不及。
明确的制作思路能节约大量的时间,我将尽可能轻松详细的描述我的制作思路,方便读者按图索骥。
在讲解本文的方法前,请读者们想一想,如果制作语音素材包,应该采用什么步骤?是用Audition选中音频逐个右键导出?需不需要用中置声道提取人声?在确定自己的制作思路后,不如看看下面别人是怎么想的。
想好了吗?现在看看其他人是怎么想的。

感谢群友 cdd 提供的制作思路:花钱外包
感谢群友 DMC 提供的制作思路:AI克隆声音
感谢群友 内志汉志 提供的制作思路:发弹幕骗
感谢群友 春を惜しむ 提供的制作思路:摇人白嫖
感谢群友 七七的喵叔 提供的制作思路:主播自己录
感谢群友 碎片手雷 提供的制作思路:花钱SC让她自己念

上面都是好思路(笑),都有可实施性但效果看运气,有条件的建议在按本文制作前优先考虑上面的方法。
AI克隆声音有技术门槛,效果不理想。
发弹幕骗、花钱SC让她自己念,确实有人这么做。
非要说缺点的话一是素材量很大,主播愿不愿意是个问题。二是容易棒读,没有情绪一点点缺点算什么,这是最省时省力的方法了!主播自己录我没见过,只见过发布节目人声素材,如果要作为素材使用还是需要分段处理,可以按本文的方法加快速度。
花钱外包、摇人白嫖更合适不过了(笑)
本人接外包,联系方式***

不开玩笑,下面介绍我的制作二创语音素材整理方法,用语音识别确定时间轴和内容,根据时间轴批量分割导出,批处理批量重命名。
这种方法适合大批量长时间的情况,在硬盘损坏之前,我曾用这种方法在一星期左右的时间截取了近3000段音频。
首先我们要明确基本的制作路径:
音频分段
人声分离(去除背景音乐)
语音识别
校对截取
导出命名
不一定非要用文章中的软件,人声分离(去除背景音乐)和语音识别可以互换位置,如果没有BGM或者BGM不影响,可以直接去掉人声分离节约时间。读者可以基于上面的路径按照自己的习惯修改,适合自己的才是最好的。
音频分段
做好音频分段将会节省大量时间和精力,如果没有进行音频分段预处理,你将会遇到并且不局限于:人声分离消耗大量算力和时间在不能用的片段上、人声分离死机失败、语音识别耗时很久时间后报错失败。每一个都能将制作语音包的热情迅速浇灭,另外面对一堆动辄三四个小时的录播,很容易让人沉浸怎么也做不完的绝望。进行音频分段也有利于我们设立多个小目标,了解制作进度。
要想进行音频分段,首先要看一遍录播。当然不能老老实实地看一遍录播,我们需要有长时间跳转、倍速播放功能的视频播放器。比如PotPlayer、VLC等等,按照个人使用体验,四倍速是人和软件都能接受的速度。PotPlayer超过四倍速播放会音画不同步,快捷键C加速,快捷键X减速,快捷键Z快速切换正常/倍速状态。VLC超过四倍速会静音播放,小键盘加和减键按整数增加或减少速率,"[“键和”]“键按小数调整速率,”="恢复正常速率。
除此之外,唱歌部分不需要保留。一首歌大约三到五分钟,我们可以直接用快捷键跳转时间,PotPlayer的时间跨度快捷键如图所示:

如果遇到主播唱歌,多按几次Shift+方向键跳转到歌曲结尾节约时间。
VLC的跳转快捷键如图所示:

通常我们不需要的是直播开场动画、主播唱歌片段、背景音乐含人声的片段、直播结束结尾曲等等,四倍速快速播放录播的过程中记下这些时间节点,注意,记下的时间最好为保留几分几秒到几分几秒。如:主播3分15秒正常说话,3分40秒开始唱歌,6分30秒唱完歌继续说话。那么我们应该记下的时间段是03:15-3:40、6:30-下一次说话结束的时间。而不是记3:40-6:30唱歌的时间。
多按几次长时间跳转快捷键,迅速的浏览录播视频,记下这些时间后,使用ffmpeg命令进行批量修剪,没下载ffmpeg的建议看以前的专栏,看ffmpeg的下载,自行搜索"ffmpeg 环境变量"关键词,设置环境变量失败的,将下文中所有ffmpeg替换为"磁盘\文件夹\ffmpeg.exe"的格式。
ffmpeg -ss 开始时间 -to 结束时间 -i 源视频路径 -vn -c copy 导出视频路径(后缀名为mp4)
-vn表示无视频流,-c copy表示复制流,假设环境变量没设置成功,将ffmpeg解压到D盘,那么应该是这样写的
"D:\ffmpeg.exe" -ss 00:03 -to 06:10 -hide_banner -i "D:\64.flv" -vn -c copy "D:\新建文件夹\001.mp4"
"D:\ffmpeg.exe" -ss 09:30 -to 14:52 -hide_banner -i "D:\64.flv" -vn -c copy "D:\新建文件夹\002.mp4"
……
复制指令到记事本,点击文件-另存为

保存类型改为所有文件,手动添加后缀为bat,编码改为ANSI

双击新建的批处理文件,会弹出cmd窗口进行剪切处理
以上操作为第一次粗剪,目的是删除不需要的片段,节省人声分离的算力和时间
如果第一次粗剪的音频片段过长(单个片段时长半小时以上),需要第二次粗剪控制视频时长,防止语音识别阶段等待时间过长
第二次粗剪除用上面的ffmpeg修剪命令精确修剪外,也可以用软件直接批量修剪为固定长度的音频,比如用Quickcut将视频裁剪为10分钟的长度

两次粗剪后音频分段完成

人声分离
根据笔者的个人制作经验看,如果语音素材只是给自己使用的话,完全可以在二创结束时对使用的音频去除BGM,这样可以节约相当数量的时间和算力。
之所以放在第二环节,是因为笔者当时制作语音素材是本着所有人都可以分享的目的制作的,教程也将遵循当时的步骤。
人声分离的软件也有很多选择,如RX7、iZotope、SpleeterGUI。我习惯SpleeterGUI因为免费,还可以把多个音频一股脑的全部拖进去,然后离开电脑等待
SpleeterGUI有繁体中文,使用前记务必把最大歌曲长度从默认的600改为更长的时间

有余力的读者可以去官网自行研究安装GPU版本
https://makenweb.com/spleeter_help.php

接下来就是漫长的等待,这段时间可以离开电脑做别的事情。所有任务跑完后,人声分离完成。


语音识别
需要注意的是,无论是哪家的语音识别服务,都达不到让人满意的程度,必定需要大量手动修改。
阿里云、腾讯云等云服务适合能接受付费的用户,我记得阿里云录音语音识别大约是两块五一小时。
网易见外平台免费使用,但每天只有一个半小时的额度,如果合理规划工程,每天只做1.5小时的语音包可以用这个方案,我最后没有用这个
网易见外平台网址: https://jianwai.youdao.com/
剪映PC版是我最终采用的方法,结合民间大神写的剪映字幕提取插件,可以满足语音识别的要求,本文就用剪映作为范例讲解。
新的剪映PC版对电脑的要求更高,如果可能的话尽可能安装最开始的旧版,我使用的版本是1.3.6版本。语音识别是从网络返回的结果,无论新版旧版结果都是一样。
剪映(最新版)官网下载网址:https://lv.ulikecam.com/
我前文中提到“人声分离和语音识别可以互换位置”,如果按照文中的路径先人声分离再语音识别,就会发现人声分离后的视频是不能进行语音识别的,会弹出请先开启音量或添加音频,再进行识别的提示,这是因为剪映只有有画面时才能进行语音识别。

为解决这个问题,我们需要给纯音频增加视频画面,首先我们先制作一个4×4像素的图片,点击一下win键,敲击一下空格键,直接搜索画图。

点开画图软件,点击左上角文件-属性,

改成4×4像素,然后保存这张图片为JPG或者其他能用的格式。

打开小丸工具箱,调到常用选项卡,拖入图片和音频,输出后缀名改为mp4方便播放和编辑,FPS设为1,勾选复制音频,时间长度不用改不影响。设置好点击压制,就能得到一个一图流视频。

为什么要用4×4像素的图片?因为这一步主要靠CPU生成,越大的图片消耗的时间越长。
得到视频之后就可以拖入剪映中,文本-识别字幕-开始识别,等一段时间识别完成。

识别完成后退出剪映,打开剪映工具箱或者其他能提取剪映字幕的工具
剪映工具箱下载地址:http://39.96.28.241/

下面的步骤摘自剪映工具箱网站
打开软件,在首页单机你要提取的工程文件即可完成提取

修改导出格式
默认为SRT格式。
点击侧边菜单设置,在导出格式中选择SRT或TXT格式,或者在字幕页下方更换格式。


导出字幕
点击侧边菜单字幕,点击保存选择导出目录后即可完成导出。

导出SRT文件后,语音识别工作完成,进入最让人血压飙升的校对截取环节

校对截取
录播组中的校对为何七窍生烟?本环节可体验一二。
前面说过无论是哪家的语音识别服务,即使主播是新闻主播那种级别的普通话,也不可能稍微修改一下就完成,只能手动修改。
另外更让人生气的是打轴,语音识别的字幕基本上是话还没说完字幕就没了,或者断句断的像外国人说话一样,也只能手动修改。
用Aegisub打开SRT字幕,拖入视频,进行修改。

用鼠标拖拽右上区域,修改文字框中的错字。合理使用快捷键能大幅度加快速度,确保时间轴完整覆盖到音频。
注意:为了能够成功导出,字幕中不要含有英文符号,重复的字幕加上编号让内容不重复,不要用任何ass特效
注意:为了能够成功导出,字幕中不要含有英文符号,重复的字幕加上编号让内容不重复,不要用任何ass特效
注意:为了能够成功导出,字幕中不要含有英文符号,重复的字幕加上编号让内容不重复,不要用任何ass特效
等所有修改完成后,另存为字幕文件。

导出命名
胜利的曙光就在前方,只要成功导出,第一段就完成了!
在Aegisub中校对时,有几句话效果特别好,想单独提取出来放在优先位置。所以在讲批量导出前,先讲一下在Aegisub的单个导出
单个导出
选中要单独提取的字幕,右键-创建音频剪辑

会导出为wav格式的音频,需要手动输入名称(因此此方法只适合做单个导出)

批量导出
重点在导出和重命名,需要用到的软件是Quickcut和Office软件
打开Quickcut,调整到分割视频选项卡,总选项填写-vn -c copy
,-vn
的作用是禁用视频流,-c copy
的意思是直接复制不重新编码,这样速度会快得多。
把视频和字幕拖入对应选项框,点击运行会在相应目录生成文件


剪完之后会发现文件名都是这个鬼样子,压根没法用,我们要用office软件编写批处理命令一对一重命名。

首先打开Aegisub,CTRL+A全选所有字幕,CTRL+C复制。

来到WPS或者EXCEL里,CTRL+V粘贴,选中这一列,使用数据-分列功能。

选择固定宽度,点下一步,

将分列线移动到合适位置,点下一步,

点完成,

字幕内容被单独分离出来。

在C1中输入=TEXT(ROW(),"000000")
,双击右下角绿点快速填充表格


考虑到有些函数看不懂,我会在介绍完Excel函数和ren重命名后,再介绍一种简单的方法
方法1 EXCEL组合函数
在操作之前,先分别讲解原理:
在CMD命令中,ren file1 file2
表示将file1文件重命名为file2,因为字幕会中带有空格,所以我们把命令改为ren "file1" "file2"
防止命令出错
也就是说,我们要用得的其中一条命令是这样写的:
ren "000001..mp4" "打个比方,举个例子1.mp4"
双引号是语法的一部分,没有办法直接输入,所以我们使用EXCEL中的绝对引用,在E1输入英文的双引号

英文符号&在表格中表示连接的意思,既可以连接文本,也可以链接框
D1要填写的命令是这个样子的(注意ren后面的空格,双引号之间的空格):
="ren "&($E$1)&C1&"..mp4"&($E$1)&" "&($E$1)&B1&".mp4"&($E$1)

不要怕,我带大家分析一下,首先把所有字母和数字带入,B1的内容是“打个比方,举个例子1”
="ren "&($E$1)&C1&"..mp4"&($E$1)&" "&($E$1)&B1&".mp4"&($E$1)
="ren "&($E$1)&000001&"..mp4"&($E$1)&" "&($E$1)&打个比方,举个例子1&".mp4"&($E$1)
所有双引号的内容都是文本内容,英文符号&表示连接,因此去掉双引号公式是这个样子的
=ren &($E$1)&000001&..mp4&($E$1)& &($E$1)&打个比方,举个例子1&.mp4&($E$1)
前面说过了英文的双引号是语法的一部分,所以没办法直接打出来,我在E1填写了一个双引号作为绝对引用,公式中所有的($E$1)
都是文本类型的双引号,消掉&,并代入($E$1)
后公式是这样的:
=ren "000001..mp4" "打个比方,举个例子1.mp4"
双击D1右下角的绿点,快速填充表格

复制这一列到记事本中,另存为到音频文件夹,保存类型改为所有文件,后缀名改为bat,编码ANSI,点击保存

方法2 直接连接法
如果实在是没看懂上面的="ren "&($E$1)&C1&"..mp4"&($E$1)&" "&($E$1)&B1&".mp4"&($E$1)
到底是什么意思,那就简单粗暴的用快速填充来填写
首先我们回到图中这一步骤:

在D1填写ren
(注意ren后面有一个空格)

双击绿点快速填充表格

E1填英文状态的双引号,快速填充
F1填写=C1,然后快速填充
重复填写、等于、快速填充的方法,让表格成图中的这个样子(注意空格)

在L1填写=D1&E1&F1&G1&H1&I1&J1&K1
,使用快速填充,也能得到函数法的最终结果
复制L列到记事本中,另存为到音频文件夹,保存类型改为所有文件,后缀名改为bat,编码ANSI,点击保存
找到批处理文件,双击运行
一切完成!注意如果字幕存在问题(比如使用了ass标签、使用了英文符号)重命名可能失败,需要手动修改

补充链接:
网盘(内含ffmpeg.exe、小丸工具箱R236、Aegisub-3.2.2-32.exe、剪映1.3.6) https://www.aliyundrive.com/s/tpVYQ1415XZ 提取码:ANFx
ffmpeg下载地址 http://ffmpeg.org/download.html#build-windows
小丸工具箱官网下载链接已失效
Aegisub https://aegi.vmoe.info/downloads/
剪映PC版下载官网(官网是最新版本,硬件要求更高,教程中是1.3.6版) https://lv.ulikecam.com/
Quickcut下载地址 https://gitee.com/haujet/QuickCut/releases
网易见外工作台 https://jianwai.youdao.com/
剪映工具箱 http://39.96.28.241/
播放器自选
如果要做鬼畜音源(唱歌的那种),请看大白熊UTAU人力V教程(第二章),完整的五章节详细讲解怎样把主播说话的素材变成唱歌的音源