欢迎光临散文网 会员登陆 & 注册

关于中文虚拟歌手中文曲排行榜和周刊VOCALOID中文新曲榜引擎记录问题的Response

2023-06-26 16:55 作者:星璇の天空  | 我要投稿

首先,这是周刊改版后的一个老声常谈的问题了:引擎和歌姬标签错误问题。

从中文虚拟歌手中文曲排行榜的角度看,作为一个不区分引擎的“全榜单”来说引擎的标签问题干扰的可能只是引擎小榜标记问题,目前的策略一般是被提出之后进行标记修正,确保后续小榜排名正常。

但是从周刊VOCALOID中文新曲榜的角度来说,问题可能就大了:VOCALOID引擎如果标记多了或者少了,曲子就完整的Miss掉了,比如这位:

V 2 ACE

同样的,歌姬标签的问题也一样存在:

这曲子其实是言feat洛的

所以,引擎和歌姬标签错误的问题,刊组其实一直是在想办法解决的。但是效果就目前来看,并不是很理想。

不过,写这些并不是为了说这个问题有多严重,而是探讨一下解决的方案。

在讨论手段之前,首先插一段说说目前刊组数据形成过程:

整体流程如下图所示:

整个榜单审核过程的流程图

从流程图上能够看出来,整个过程能够处理和修正引擎和歌姬错误的环节,主要是2个:

  1. AI换声排除环节之后的标记过程

  2. 收录的人工核定和信息补充过程

对于前者,我虽然们目前在开发一套基于音频特征识别的AI模型用于识别所使用的引擎和歌姬。不过这是一个漫长的训练过程。所以暂时情况下这一块儿的识别是基于NLP和Keywords的。

说到NLP,自然就是基于文本了,所以识别的逻辑大概是这样的(实际要复杂,大概举个例子):

判断逻辑

从逻辑上,就会发现,如果在简介或者标题上玩一些“很新的东西”显然是会影响到判断的。

有没有更好的判断方式呢?

我们曾经想过,通过强制引擎TAG来判定。比如Utau引擎的歌姬一定是有Utau标签或者Utau中华组标签,SV引擎的歌姬一定是有SynthV或者SynthesizerV标签……

但是,实际测试中,VOCALOID和VOCALOID中文曲标签它不属于VOCALOID了!不属于VOCALOID了!不属于VOCALOID了!重复三遍表达情绪!

这个分区标签作为最早的VU区标签,也是VU区在下分Tag之前的“根分区”。目前里面什么牛鬼蛇神都有。用了VOCALOID往里放,ACE的往里放,AI换声的往里放,AISinger,Vogen什么的热度较低的引擎的往里放,XStudio的作品也往里放……所以什么都至少加一个VOCALOID标签的结局就是:VOCALOID自己没标签了。

然后,VOCALOID标签成了各种IF {ENGINE TAG} in TAGS执行过后的ELSE选项(解释给非CS的童鞋们:判断别的标签不在的时候,最后剩下的留给VOCALOID)

这就导致了VOCALOID引擎的标记反而混乱不堪。

而最大的影响是谁呢?Vsinger家的几位!

星尘一般情况下SV版本的星尘被标作星尘Infinity,所以直接识别歌姬就好。只有较少的情况是标签里歌姬标签和SV标签都没有的。所以判断相对容易,如果不是SV星尘,就当V星尘好了。

然鹅,洛天依呢?绫呢?还有其他ACE和V双引擎的歌姬呢?

洛天依V3+ACE你怎么识别引擎?

洛天依V3+言和ACE你怎么识别引擎?

乐正绫ACE不标ACE只标VOCALOID标签你怎么识别引擎?

乐正绫V4只标VOCALOID标签你怎么识别引擎?

洛天依ACE上后期模拟凝萌声线,只标VOCALOID标签你怎么识别引擎?

只写个“南北组”简介一笔不写,只标VOCALOID标签你怎么识别引擎?

还有未来可能会面临的问题:

RVC声码器作为后期进行声线调制后的洛天依,只标VOCALOID标签你怎么识别引擎?

所以,规范的写好TAG,老实的在简介或者标题里写清楚Vsinger是洛天依AI还是洛天依是目前准确标识曲子引擎的最有效方法。当然,规范的写上“引擎:ACE”,“引擎:VOCALOID”也没问题。

混在一起,至少在有好的边界识别方法之前,机器没办法做到那么精准。标志性的信息给的越多,判断出错的概率越小。

当然,通过歌姬反向确定引擎TAG也是可以的。我们目前也做了相关的绑定,但是这只是逻辑上的关联,不敢做出强绑定的。至于为什么,不妨先看看这个:

南宫绫_Slv的投稿,BVid:BV1td4y157oU

说实话看到这种标题的时候,从一个开发的角度来说,就像一个项目经理看到手底下的实习生删库跑路之后还给你办公桌上拉了一泡屎一样恶心。

从歌姬反向绑定也面临一样的识别错误问题,只是情况少点而已:比如Vsinger几个还有夏雨遥。

但是夏雨遥也相对好解决,得益于SV有自己的标签……然而Vsinger还是什么都没有。

看到这里,你大概也能理解为什么出错的绝大多数都是Vsinger的几个了(个别其他的是因为数据清洗时候的问题,还有就是一些奇怪的“新鲜的东西”,比如你用ACE STUDIO+RVC模拟了战音Lorra,也许程序会标注成ACE引擎,这其实并不是错误,虽然后来修正了)


回过头来,对于第二种修正模式:人工修正,则主要是审核员们的工作。

作为一个在AI相关领域沾了点皮毛的科研院所学术垃圾生产者,目前AI仍是是不可信任的。只适合给出建议,但是在高精度上Loss还是太高了。

而人工审核流则是数据的“最后一道防线”,刊组的审核人员每周花费了大量时间在清洗这些数据,最高的审稿峰值是3000稿/天(这里面有2k+是各种影视营销号,比如什么火龙果看电影啥的,还打着Vsinger创作激励计划,都是来蹭奖金的)。后来各种AI孙燕姿也各种开始进入了审核范围。虽然后来加了识别程序去掉了绝大多数的影视营销号和"AI周杰伦"之类的“名歌手”,但是漏网之鱼仍然占据了审核页的一半。

各种稀奇古怪的AI

而从实际角度上讲,审核的压力大概是500稿件/天左右,有AI辅助给出审核建议。

截至2023-6-26日12时的Log,92/253代表总253稿,待核92稿

所以实际上如果AI无法正常识别,人工也不能从稿件信息里快速判断引擎信息。那么大概率是无法靠耳朵听出来的。

比如“一耳XXX”,“一听就知道是XXX”这种,就目前来看大概率不现实,因为这些稿子中有5%~10%是要过耳朵的,听多了,除非特征特别明显的,其他的甚至故意模仿风格的曲子,真的没那么敏感。说句玩笑话,“刊组从来不看周刊!”,因为每个稿子都听了N次了。当然如果有人能每次都“一耳XXX”的,欢迎来当志愿者!

目前,困难就摆在这里了。从标签角度上,只能说呼吁大家认真的打好标签和说明信息。尤其是在意这个分类的童鞋。

而我们目前最后最后的补救方案就是发现数据错误之后在后台及时修正。而周刊信息出现错误的反馈渠道目前有几种:

  1. 填写信息补充单(在稿件尾部有收集表)

  2. 跟成员私信:主要是GUMI、失落

  3. 评论区提出来

当然,投错区了的也可以通过这个渠道提,优先补录原创曲。

此外就是:如果有更好的解决方法和思路,欢迎讨论或者给我发消息。


关于中文虚拟歌手中文曲排行榜和周刊VOCALOID中文新曲榜引擎记录问题的Response的评论 (共 条)

分享到微博请遵守国家法律