崩坏3游戏角色语音数据 - 奥托阿波卡利斯

更新时间(2023年06月11日)第二次更新
原始音频和对应的文本
介绍:此处是崩坏3游戏内角色的原始音频文件整理介绍,音频文件以游戏内原始音频命名。
奥托·阿波卡利斯
处理流程:
音频对应的文本都已亲手核对3次,第一次是亲手查询游戏原始文件并筛选出“奥托·阿波卡利斯”的音频数据,并粗略写出文本,第二次是对照别人录制的剧情来核对文本,第三次是在进行对音频切分时再次进行音频文本核对。
游戏原始音频文件的顺序有一些是刻意打乱过,因此需要亲自核对。并且游戏中的文本也出现了错误的文字也已纠正。
注意事项:
1.将阿拉伯数字改为中文数字。
2. 文本将特殊符号全部改为“逗号”和“句号”。
3. 音频有重复(表格E列有备注)。
4. 因为是原始音频因此有一些多余的语气词,因此需要进行裁剪才能当作数据集使用,因此有一些音频可以拆分成多句音频。
5. 表格文本中有标记原始音频名、属于的剧情章节和身份(现在奥托、过去奥托、旁白奥托、实验记录奥托)。
已知缺漏的音频文件有:
主线6:巴比伦的囚徒
主线7:向天举起叛逆之剑
主线9:通往明日的旅途-01
主线20:千年之羽
编年史 永世回忆(1.5活动)
编年史 守护者的回忆(2.2活动)
资源获取地址:
百度网盘链接:https://pan.baidu.com/s/1jgvbI2B0QqA7zP8_U9LPUw?pwd=2035
提取码:2035

更新时间(2023年06月11日)第二次更新
处理后的音频和文本数据文件
介绍:对原始音频进行处理,使其能用作AI语音训练的数据。
奥托·阿波卡利斯
拆分音频规则:
1. 将阿拉伯数字改为中文数字。
2. 文本将特殊符号全部改为“逗号”和“句号”。
3. 在不影响音频的情况下,切除多余语气。
4. 单独保留相关语气词,如:笑声、呼吸等。
5. 音频文件有重复但属于不同的语气说出的相同句子。
5. 将语音分类为:
现在奥托:经常托长声,语速中等,常用笑声((无声笑声+哼...哼+吸气))
过去奥托:偶尔托长声,语速很快
旁白奥托:专业配音声,语速偏慢
实验记录奥托:语速快,偏亢奋
后续更新规划:
1. 制作最细粒度音频拆分(能拆则拆)
2. 训练奥托·阿波卡利斯语音模型,多种情感,单独保留语气。(可能不一定能做出来,个人想通过独立的人工智能程序控制语音生成,因此语气是需要通过计算后才得出语气词输出的位置)
3. 更新数据集拆分:将根据语速、情感、语音清晰度进行分类,按需进行训练使用
4. 下次更新语音数据集时间暂定为:2023年12月21日
注意事项:下载下来后不能直接当作数据集使用,请自行选择需要的数据,因为数据是根据原数据进行拆分的,因此会有重复的句子 ,请自行删除不需要的音频。
(后续我会进行第三次更新数据集)
资源获取地址:
百度网盘链接:https://pan.baidu.com/s/1RoOZ2albIM3uW1OR3jeuuA?pwd=2035
提取码:2035

参考:
哔哩哔哩UP主:穷困潦倒乐乐酱(https://space.bilibili.com/14610906)的崩坏3视频
协议:
建议大家不要用作商业用途,如真需要用于商业用途,请于崩坏3的主要负责人进行协商。