欢迎光临散文网 会员登陆 & 注册

c语言大佬锐评鹿鸣

2022-07-16 13:55 作者:路德维希--维特根斯坦  | 我要投稿

1.导论ai现在确实是一大流量密码,在开始之前先来点扫盲环节。什么是人工智能(artificial intelligence,AI),通常意义上我们可以将AI分为三个环节,感知,机器学习,机器人。我们举一个简单的例子,自动驾驶中避障这一“行为”。首先由车载雷达感知障碍物大小与位置,然后由电脑确定如何进行躲避或刹车,最终由动力与制动系统控制汽车运动状态。

机器学习(machine learning)是目前AI发展的核心领域。机器学习指的是通过已有的知识与数据通过计算机处理得到新的知识。大家在生活中经常常用到的Excel拟合就是机器学习的一个例子。在机器学习中最为热门的领域是所谓深度学习(deep learning),与其他机器学习的方法相比机器学习在数据量庞大时的表现十分优秀。按照数据内容与学习目的(有无被预测的变量)可分为监督学习与无监督学习,监督学习包括回归与分类,无监督学习包括聚类与降维。

  2.AI直播的需求:直播与视频有两点主要区别一是是否有实时互动,即观众输出的内容对内容提供方输出的内容是否有实时影响。二是内容是否主要为实时生成,即核心内容的生成与输出是否同步。转换成比较通俗的语言就是不能无视观众,不能播片。由此我们可以得到一个比较清晰的需求:在预定的内容主题框架下,实时获取观众的反馈,并据此生成相应的内容并输出。

  3.目前AI直播的痛点:

(1)自然语言识别。自然语言识别是获取观众反馈的最重要的途径。目前AI对自然语言的识别已经有了比较成功的案例,比如语音转文字,机器翻译等。但是这不代表AI直播中仍然可以顺利识别(看看审核👀)。自然语言识别是建立在语料库之上的,对于大量的不断更新的各种互联网黑话其识别成功率并不高,更何况各种隐喻联想暗示(我有一个朋友在路边演讲时不小心摔倒了)。此外另一个核心问题是直播回馈的数据质量极差。看过v的应该都知道弹幕钓鱼,独轮车,抽奖弹幕还有满屏好好好坏坏坏,由于各种原因弹幕存在大量无意义内容,且内容的重要程度与数目并不成比例,数据在经过清洗后仍然很难有好的识别效果。(2)内容生成:直播内容可以大致分为两大类:有固定模式内容与无固定模式内容。前者的代表是歌、舞、小品等,后者的代表是杂谈、即兴创作。其区别为是否存已有的内容固定范式。对于前者现在已经有了很多成功案例,比如ACE歌姬,MMD,Monkingbird等,只需导入工程文件,直播时即时渲染即可。而后者到目前为止并没有一个成熟的解决方案。实际上使用AI进行所谓的“创作”是很困难的,大家应该看过一些根据关键词生成的“画作”。这些画作大多数都属于所谓的“印象派”,在整体风格上与给出的关键词是吻合的,但是其细节部分完全是将一堆不同作品的碎片生硬的拼凑到一起,“有一种支离破碎的美”。(3)AI的嵌套:对于人来说,一个训练好的高复杂度的AI是一个黑箱,最有效的研究方法往往不是逐层查看参数,而是给与不同的输入,观察其对应的输出。而人的观察能力十分有限,一个傅里叶变换就可以掩盖很多输入输出的差别。因此多重AI嵌套往往会出现意想不到的问题。一个经典的例子:对位图每个像素rgb值的后几位进行编码,可以在一副图片中插入隐藏的另一副图片,这是肉眼无法观察到的。一个常见的攻击AI的方式就是基于该原理,通过这种难以被人察觉的方式篡改训练集,从而使得训练难以进行,或使得训练好的AI在遇到特定的内容时产出预料之外的结果。这种AI的固有弱点结合(1)(2)中提到的各种问题,其直接结果是AI对观众内容的反馈是完全超出人类思维所能预料的,其输出的内容从完全正常的人类的反应到古神的平方,一切皆有可能。

4.总结:目前看来,全AI直播从基础原理上就是完全无法实现的,除非AI的基本原理与研究方法有了跨时代的飞跃。将来我们可能看到一些比A-SOUL、星瞳、鹿鸣更“虚拟”,更有技术含量的VUP,但是距离全AI直播我们还有很长的路要走。

省流版:ai直播在现在以及可预见的将来根本没可能实现,鹿鸣纯cjb。


c语言大佬锐评鹿鸣的评论 (共 条)

分享到微博请遵守国家法律