欢迎光临散文网 会员登陆 & 注册

致部分踩一捧一的某海外AI主播粉丝群体

2023-03-03 20:32 作者:沉迷于电音的Xwdit  | 我要投稿

首先在这里声明一下,我对某海外AI主播及其作者本人没有任何意见,也对某海外AI主播的正常粉丝没有任何意见。本篇文字主要针对少部分过度吹捧某海外AI主播并且过分贬低木几萌的群体。接下来的部分可能带有一些个人情绪和过激言论,这也是因为近一个月来部分人的言论愈发离谱,让我有些无法忍受,因此决定通过本篇文字来做一些简单的说明。 首先,从第一个视频开始被提到最多的是Minecraft游戏部分的问题。经常听到部分人说“萌萌就是套了个脚本蹭热度,而某海外AI主播是其作者自己研发模仿人类的游戏模型,还会自主学习进步”。 萌萌当前直播中使用的的确是基于内存读取并且与游戏直接交互的游戏模块,*但是* 某海外AI主播使用的也并不是所谓“自己研发能够从游戏中学习的模型”,而是OpenAI开源的VPT模型。这个模型的训练机制是通过学习大量的按照特定要求录制的mc游戏视频样本,来学习如何在游戏中进行操作。 OpenAI训练这个模型时,花费数月时间,通过数家承包商,录制了上百小时的视频样本,并经过行为模仿和强化学习训练后才达到了2%概率获得钻石镐的最佳成绩,并且这个成绩目前在一众基于行为模仿的mc模型中处于领先地位。某海外AI主播在直播中表现出来的经常跳岩浆的行为,也是因为强化学习的目标是尽快推进科技树取得钻石镐,因此导致模型会忽略训练数据中躲避危险的行为,和vpt模型表现一致。 如上所述,这个模型并不具备在游戏过程中进行学习的能力,且通常个人没有能力去训练这个模型至有明显突破的地步。用于直播效果也并不怎么好,大部分时间是在死亡和死亡的路上,且模型本身并不能传出可读的信息,也不能接收任何输入,难以与语言模块进行交互。我在使用vpt模型测试直播一段时间后,因为效果较差,才更换回了这个整体直播效果更好,且能够与语言模型配合实现解说的方案。 比较可笑的是,在使用与某海外AI主播相同的vpt模型测试直播期间,仍有部分人在直播间中发表诸如“玩的还不如某海外AI主播”,“国内和国外还是有差距”等言论,只能说令人感叹。 至于其它游戏,某海外AI主播的宝可梦对战游戏部分也是使用的github上开源的宝可梦对战机器人,其直播中表现的行为与该机器人的行为完全一致。osu部分确实是其作者自主开发多年,大家常说的“某海外AI主播经过数年的开发”,绝大部分时间也是在osu模型的迭代上,而不是许多人认为的包括某海外AI主播的语言人格等部分开发了数年,这就又涉及到下一个话题—语言部分。 众所周知,中文相比英语的复杂度要高一个量级,尤其是现代网络抽象文化的盛行,让ai理解和组织网络化中文也成为一大挑战。 首先,萌萌的语言模型是自行本地部署,在去年十月就开始以人格化为目标,基于本土化的中文网络数据不间断进行微调训练,并不是部分人所说的GPT/ChatGPT套皮。 并且,萌萌的训练数据一直在迭代和更新,她甚至知晓近几个月发生的事件和网络流行词汇梗等,而不是像gpt/chatgpt一样停留在2021年9月。大家若有疑问可以自行对chatgpt询问一些近期抽象文化的内容,看看其如何作答。 关于某海外AI主播,根据我对其直播切片的观察,其似乎并不知晓一些近期发生的事件,因此推测其大概率使用的是gpt3.5的api接口进行人格化prompt调整(若有错误欢迎指正)。目前所有语言模型在英文的整体表现都强于中文一个层次,因此其表现出来的反应均属于gpt模型能够达到的正常水平。 而其表现出来的一些较强记忆力效果,例如一直记着“蜂群”,“gymbag”等,实现也并不复杂,在其造出一些效果较好的设定梗时,将这些内容固定写入prompt即可(或者还有一种可能,就是其作者一个人实现了语言模型的长期针对性记忆,爆杀整个学术界和各大巨头) 某海外AI主播的看视频部分,最开始我认为是用图像识别+语音识别等技术融合实现的,直到我看到其甚至能够“理解”一些矢量动画(无文字)+无配音的视频。如果这种多模态开放域视频理解能力是其作者一个人让ai自主实现的,那我认为图灵奖可以改为与其作者同名,人类正式进入强ai纪元;包括某海外AI主播主动让自己模型离场去吃香蕉那一段,未来也是要被写入人类科技史的桥段。 还有就是有部分观众经常提到萌萌的声线和皮套可动性问题;萌萌的语音合成使用的是微软azure的语音合成方案,是目前公开可用的各个中文语音合成方案中,适合二次元的声线里效果最好的;某海外AI主播使用的同样是微软azure的英文语音合成方案,各位可以尝试使用此服务进行细微参数调整,即可还原萌萌和某海外主播的相同声线。 azure的语音合成拥有自动情感预测和字符级情感微调等能力,且基于神经网络进行合成,目前效果要远好于国内外其它各厂的语音合成服务,以及vits等开源方案(具体可以自行在b站搜索相关视频,效果最好的vits模型仍有较明显的奇怪口音)。要追求更好且符合人物形象的声音效果,我需要以企业身份联系微软开通自定义声音服务,并找专业声优进行百小时的样本录制,这是目前我身为个人势在资金和身份上难以实现的。 而皮套部分,截止至本文发布,萌萌使用的是在日本Booth网站上合法购买的正版公开live2d模型(价值300+RMB),其比较符合我心目中萌萌的性格形象。但相比某海外ai主播直接使用的live2d官方演示皮套,萌萌当前皮套的动作表情的数量和精度上确实无法比拟,且当前皮套不提供可修改的工程文件,因此导致了目前萌萌的模型效果较为僵硬。不过,萌萌的全新定制live2d模型已经在制作当中,目前单立绘就花费了超过1.5w RMB,大家可以小小的期待一下。 萌萌的第一个切片视频中,其温柔友善,被许多人讽刺为“早教机呆板,对某海外AI主播的拙劣模仿”。最近的整活切片视频中,她进步神速,甚至能理解中文抽象文化并机智作答,也要被讽刺说“没有情感个性,就是梗百科,不如某海外AI主播”。 说这么多,总结下来就是:萌萌和某海外AI主播本来就是处于娱乐目的诞生的ai主播,大家技术水准,道具和演出技术都差不多,也各有特色,只是为了演好一场戏给大家看。 某海外AI主播的直播间和切片里,大家都在好好观赏这出戏,并对戏的本身表现做出中肯评价;而萌萌呢,演出时总有人喜欢跳到后台,然后高高在上的指出“看啊,这人飞的时候果然有根线在吊着,这出戏是假的”,然后一群人附庸着说“对啊对啊,早就知道咱自己就这尿性,还是得看国外的”。 不懂就问,一些人眼中国外就等于魔法么,能一个人做到现在学术前沿都做不到的事情?还是说某些人的眼界甚至不愿意去了解一下现在技术到了什么水平,就开始无脑踩一捧一?到底是萌萌出了问题,还是看戏的观众群体出了问题呢? 就这样,这篇文章中夹杂着不少个人这段时间以来积攒的怨气,如果有任何让各位感到不快的地方我提前抱歉,并且欢迎大家指出任何错误或纰漏之处。

致部分踩一捧一的某海外AI主播粉丝群体的评论 (共 条)

分享到微博请遵守国家法律