欢迎光临散文网 会员登陆 & 注册

【PJSK/统计向】快的比慢的要快一半——PJSK原创角色语速统计

2022-09-03 20:22 作者:涼风_青叶  | 我要投稿

        众所周知,只要有了足够多的文本以及对应的语音,就可以用VITS人工智能定制合成自己想让角色说的话了。

        Galgame的台词与语音当然是完美的训练材料,而有语音的手游其实也一样。于是——

        除了训练AI,手游的台词和语音还可以做什么呢?是的,测算每个角色的语速几乎可以以说是每个手游玩家的第一反应!(并不是

        虽然PJSK并没有以语速慢著称的角色,但这样的统计可能会让我们发现一些以前没有注意到的细节,所以还是有一试的价值的。虽然不能指出谁的语速明显比别人慢一拍,毕竟虽然其它企划可能会有一个慢吞吞担当,但PJSK的原创角色里没有这样的……(

“看我干嘛”

统计方法

        现在已经有了一对一的音频 - 文字样本,那计算语速的思路就很简单了:求出一个角色所有台词包含的音节数【单位:音节(syllable)】,以及所有对应音频的总长度(单位:秒),再将总音节数除以音频总长就得到语速(单位:音节/秒)。

        音频的总长度不难求出:遍历所有音频文件,读取其长度信息并将其全部相加即可(当然这是要用程序进行的,每个角色4~5千条的文件如果手动统计得统计到天荒地老……)。对于并非严格遵循一字一音的日语文本,我们采用除了表示拗音的や行假名,以及处于句末的“っ”和“ッ”,所有的假名和表长音的符号“”计为1个音节;所有汉字和阿拉伯数字大致地换算为2个音节;所有英语字母大致换算为0.5个音节,标点符号和空格不计音节的统计方法。

        比奈真冬的两种声线(好孩子声线和真声线)的语音数据是分开的。分开的依据是在真冬说这句话的时候,Live2D模型所用的表情名中是否包含了“smile”这个词,如果包含则为好孩子声线,如果不包含就是真声线。这个分法很可能不严谨,但确实方便(

小真冬,你何时才能流露真实的喜怒哀乐?

统计结果

        下表给出了统计样本(并不是游戏中出现过的全部)中各个原创角色的台词音节量和总长度。表格上半部分高于平均值,表格下半部分低于平均值。

“毕竟我是吐槽担当☆”
“怎么这次还是我……不是很明白”

分析

        在总体上,各角色间语速相差并不是很大,大多处于平均值上下10%的范围以内。语速差异并不能通过角色属性差异得到完全的解释,它还可能与声优的配音习惯等因素有关。

        在语速上真正与其它角色表现出明显差异的,只有较快的爱莉,和较慢的宁宁真冬(真声线),真冬的真声线与好孩子声线的口语风格存在较大差异。

        测得一歌宁宁三位角色的语速偏慢一些,这和她们台词中较多的省略号(……)用量离不开关系,也和她们怕生羞涩的性格有关系。PJSK中所有角色当中使用省略号最多的 5 人,从多到少正好是真冬宁宁一歌志步[1]。

        测得笑梦咲希都处于语速较慢的一段中,可能与这两位角色有说话拖长音的习惯有关。

结语

        本篇专栏测算了PJSK共 20 位原创角色的语速,并简单分析了语速数值背后可能的成因。这有希望为角色声线的模仿、AI合成角色语音等提供指导。■

参考资料

[1]涼风_青叶(涼风_青叶的个人空间_哔哩哔哩_bilibili),【PJSK】从词频简单了解各个角色的语言特点和性格特点——标点·特定词句·笑声


【PJSK/统计向】快的比慢的要快一半——PJSK原创角色语速统计的评论 (共 条)

分享到微博请遵守国家法律