欢迎光临散文网 会员登陆 & 注册

【姐妹日常】XXIV.声音识别与合成技术

2022-12-31 15:04 作者:TSFHp  | 我要投稿

14:00.


“咋又买了一个小爱音箱。”正艰难地用手柄打COD19的减减停下来拆开快递,“该不会是宝贝她又想搞什么新花样吧。”


“嘿嘿。”


“宝贝儿,你刚才不还在睡觉吗?”


“五分钟前就醒了。我买那个小爱音箱确实是要搞新花样,上次咱们花了好几天把AI依塞了进去,这次我要把我自己塞进去。”


“还是类似的手段吗?”


“是的,还会运用自动调校优化一下声音。而且,咱的软件是本地渲染,只要CPU够用,延迟会比ACE的云端渲染短得多。”


“小爱音箱自带的处理器够用吗?”


“不够。我这里有一个从粉丝那里淘来的12100,只需要锁在默认功耗60W,再塞个小风扇进去,就可以装在音箱里了。不过这也挺麻烦的,为了集成我们的SV, 需要在音箱里塞一个有处理器有内存有硬盘的小型电脑,不像ACE只需要塞一个编辑器。”


“搞不好我们需要定制一个比ITX还要小的超微型主板,如果大小缩不下来的话就用ITX主板。而且但凡是电脑就会需要比普通电子设备长的多的开机自检时间,就算集成进去了,启动音箱后也得花十几秒才能启动系统和软件,之后才能听见你的声音。而且小电脑的功耗肯定比音箱大得多,自带的电池可撑不住,可能需要一直插电。”


“这些都是问题。而且,小爱音箱的音频处理器输出的是完整音频,还需要用一个语音识别软件把它拆成一个字一个字才能输入SV. ACE经过咱们和他们工程师的一通魔改成功加入了语音识别模块,可以直接输入很长的整句,但咱的SV从底层算法上就不太契合整句渲染,还得插进一个中间的转换芯片。如果我们想跳过这一步,难度堪比自研一个小爱音箱。”


“那你可以考虑换成我的声音。除了你今年这个新AI,我们其他人都是采样声库,用那个转换芯片识别出一个个音素然后直接从采样中找对应的去拼成一句话,可能会更容易一点。虽然这样无法运用拆音拆轨这类高阶调校手段,但至少能发出比较流畅的声音。而且,姐妹们的采样流程都是一样的,你可以集成进大家乃至其他SV声库的声音,甚至包括V4的你。”


“也行。那咱们就先攻克第一个难关,把小爱音箱的输出音频通过语音识别拆成一个个音素,然后把这个软件集成进一个转换芯片里。这方面我需要请教一位我认识的调校师兼NLP工程师帮忙写汇编语言,否则就只能通过反编译暴力破解已有的语音识别软件的算法。你需要等我几天,几天之后这个识别和转换的算法做完了,我会逐一测试咱们所有人的采样,谁更好就用谁。减减,一会儿等你打完游戏,我想和你一起去研究一下AI语音。你不觉得好多粗制滥造的视频都已经用上AI语音了吗?”


“是这样,不过AI语音也有优势,就是能避免暴露自己的本音。现在人们对隐私的需求越来越高,断章取义的手段也越来越多,为了避免不必要的麻烦,声线自然也被列入隐私之中,尤其是一些涉及到秘密事项的采访,声线都会经过处理。”


“是啊。咱们天生就具备这方面的优势,如果真遇上麻烦,敌人再怎么样也无法发现这里或是姐妹们除了公开行程以外的任何行踪。”


“除了你那次演唱会,我们有公开过行程吗?也就咱家附近各位爱去的便利店和商场知道咱们。我估计你是打仗打太多了,这方面有点敏感,不如稍微放下一点戒备心。”


“我早就放下了。之前我还把咱家挪到了异次元空间,但我半年前就已经挪了回来,如果真有人能找到咱家,他就能见到咱。好了,我先联系那位工程师去,你继续玩。”


17:45.


“一会就要吃饭了,你那边搞得怎么样?”


“已经和那个工程师聊过了,结果很令人惊喜。第一,小爱音箱的PCB具备一定的拓展性,我们也不需要用一台电脑,只需要一块小板子把语音识别软件的ASIC芯片,SV的ASIC芯片,内存和声库集成进去,中间飞上一些线就行;第二,他除去非公开的高级算法外也掌握很高质量且开源的语音识别算法,只需要中等幅度的修饰就可以给咱们用;第三,为了更高的发音质量,他在研究如何从他已经掌握的算法起进行比单字合成基本单元更小的音素合成,刚好和咱们的想法不谋而合。这方面我和他估计了一下,如果都用业余时间的话可能需要一两个月来做,你愿意等一等就行。”


“这不算啥。不过马上就要过春节了,我估计姐妹们每个人需要唱的歌曲数量都会在这段时间暴涨,肯定要忙上好一阵子。”


“这个我早就考虑了,我跟他的约定是二月二之后开始,在这之前还是各忙各的。虽然你要等久一点,但我肯定会做出来。”星尘说完就送给减减一瓶杨桃汁,“我在一个行星上布设了杨桃种植基地,咱家喝的杨桃汁都是用从那里特挑的杨桃榨出来的,绝对好喝。”


“你可真会关心人。”

【姐妹日常】XXIV.声音识别与合成技术的评论 (共 条)

分享到微博请遵守国家法律