欢迎光临散文网 会员登陆 & 注册

RVC变声器官方教程:10分钟克隆你的声音!一键训练,低配显卡用户福音!

2023-08-15 23:27 作者:但丁jr  | 我要投稿

1.首先解压软件包,双击go-web.bat文件

浏览器,会自动弹出本地网页。

你可以使用其他人分享的模型进行变更,也可以自己训练。

这里我先介绍小白需要改的参数,因为其他三组非小白看提示不用教也能看懂。

训练环节至少有两个地方需要修改

第一个是实验名,

在软件各目录的logs文件夹下会自动建立实验名为路径的目录。这里会存放标准训练格式的训练集实验,劣质实验配置和训练完成的模型所引导文件。

第二个要填写的是你的训练集文件夹,在一个文件夹路径中需要存放你需要用于训练的所有干声。

目前只支持训练单元模型,

然后就可以点击一键训练了。


进度会在一节训练右边的光和黑窗口内展示分类数据处理、音高特征提取、训练模型、训练特征。左眼三个阶段等价于手工点击了前面四个按钮,还有一些其他可选项供调整,但是小白建议就不要乱动了。

首先是目标采样率,这个是变声完成后导出的音频文件的采样率。一般40K能满足绝大多数人的需求。

了也可根据训练机的音频质量酌情上下调整。如果训练机20K以上并不是空的,你用48K配置进行训练,音质也不会变得更好。

第二个是模型是否带音高指导,烟斗如果输入要对各省进行变更,则必须带引导。如果输入要对说话语音进行变更,则引导选项可选进行引导。引导拍本案中包含引导识别的不确定环节,可能会产生寄生涯中等情况,但是语调更准确,另外推理延时也会对应增加。

在这里我科普下训练集的要求,

如果目标推理歌声,则少量语音、歌声训练集皆可,

如果目标推理语音,则建议使用语音输入,

使用歌声训练集需要大量数据。


有关说话人ID,现阶段不动,统一写0就行。


显卡方面,这个选项卡同时决定二三步骤的显卡,目前只支持大部分主流安卡16系列卡、老旧N卡、A卡和核心用户。用户仓框内会自动识别所有能用的显卡,并自动填写显卡序号。


如果多张显卡性能都一样,直接用默认的配置所有显卡一起上即可。

下面介绍训练参数

总训练轮数,基本越高越好,但是训练时长会更久,开场的编辑效应也提升不明显。


batch size默认4,对效果上来看是够用的。显存需求4.2G可做性调小以降低显存需求,

是否保存最新CKPT文件,如果勾选logs,文件夹下只会保存一份迭代数统一为2333333的模型文件。只能看到最新进度,看不到历史总结进度(勾选了省硬盘)


底模路径会根据step1已勾选的采样率和音高配置自动决定预制的底模型。你也可以作为资深专家,高代码训练自己的底膜,手工指定卡号同step2。


现在我们来进行现场试验,

我们假定一个背景。UP主最近天天看风景,也是比K08的视频,想听阿布祖给他压配。现在需要制作08的点上器官。我们从up主的30个视频开头挑选没有游戏背景音的语音,总计时长10分钟,我们试听一下训练集。


感谢粉丝们点赞和投币,感谢以下粉丝的充电,感谢陈云家的陈猫猫228的充电,陈猫猫12天睡不着,100的充电,非常感谢。感谢宇宙的云霞,卡特亚仙女绿帽子LE136杜黎明考研竞赛,凯哥快乐,腌黄瓜盒子鱼还右边粉丝充电,非常感谢。输入训练及路径设置实验室08感谢取消引导,引导直接一键训练。10分钟后我们试听一下变声效果,这里我们加速一下视频。

训练完成,我们查询训练日志,发现训练了12.5分钟,现在听一下效果。

结语1·

开源风险大家都知道,对于一项有风险的技术,技术的提升发展很有可能带来更大的风险,但这不是技术停止发展的理由。

没有人会去否认工业革命对提升社会生产力带来的巨大贡献,也没有人能阻挡工业革命的历史进程,第一次、第二次工业革命如是,我坚信包括A《对话、AI作画,AI语音等能够对A《GC内容生产产生推动力的相关A肢术的发展同样势不可挡。

风险产生,会有对应的职能部门去解决,我们应该相信他们的能力。作为技术人员,不断打磨自己的技术水平才是自己的本分。做出了东西,但是扩量有非技术层面的风险,这是幸福的烦恼。如果连幸福都不敢去实现,何谈烦恼?

RVC变声器官方教程:10分钟克隆你的声音!一键训练,低配显卡用户福音!的评论 (共 条)

分享到微博请遵守国家法律