读 视觉求索 朱松纯 《浅谈人工智能:现状、任务、架构与统一》有感

文章第一节总结概括的说明了人工智能的开端和中期三十年的表面“偃旗息鼓”,和当前的弱人工智能存在的问题。
文章第二节提出了作者期望的人工智能是什么样子的。
文章第三节梳理了几十年的人工智能发展方向。
文章第四节提出了人工智能的认知架构并希望借此统一人工智能。具体来说就是:“一,物理环境客观的现实与因果链条。这是外部物理环境给乌鸦提供的、生活的边界条件。在不同的环境条件下,智能的形式会是不一样的。任何智能的机器必须理解物理世界及其因果链条,适应这个世界。二,智能物种与生俱来的任务与价值链条。这个任务是一个生物进化的“刚需”。如个体的生存,要解决吃饭和安全问题,而物种的传承需要交配和社会活动。这些基本任务会衍生出大量的其它的“任务”。动物的行为都是被各种任务驱动的。任务代表了价值观和决策函数,这些价值函数很多在进化过程中就已经形成了,包括人脑中发现的各种化学成分的奖惩调制,如多巴胺(快乐)、血清素(痛苦)、乙酰胆碱(焦虑、不确定性)、去甲肾上腺素(新奇、兴奋)等。……我们先给他们定义好身体的基本行动的功能,再定一个模型的空间(包括价值函数)。其实,生物的基因也就给了每个智能的个体这两点。然后,它就降临在某个环境和社会群体之中,就应该自主地生存,就像乌鸦那样找到一条活路:认识世界、利用世界、改造世界。”之后作者给出了驱动模型在空间运动(学习过程)的原因(出发点)“两点:一、 外来的数据。外部世界通过各种感知信号,传递到人脑,塑造我们的模型。数据来源于观察(observation)和实践(experimentation)。观察的数据一般用于学习各种统计模型,这种模型就是某种时间和空间的联合分布,也就是统计的关联与相关性。实践的数据用于学习各种因果模型,将行为与结果联系在一起。因果与统计相关是不同的概念。 二、内在的任务。这就是由内在的价值函数驱动的行为、以期达到某种目的。我们的价值函数是在生物进化过程中形成的。因为任务的不同,我们往往对环境中有些变量非常敏感,而对其它一些变量不关心。由此,形成不同的模型。”这里的两点原因和我之前的表述内容差不多,当时我的理解是一来自于对其他智能体的观察二来自于尝试。缺少了内在的任务(比如说如果机器人知道自己快没电了,他需要去自主的充电。这个充电任务不是从别人那里学习的也不应该是自己没有原因的想去尝试获得的)。作者认为智能系统的影响有三个时间段:“(1)亿万年的进化,被达尔文理论的一个客观的适者生存的pheontype landscape驱动;(2)千年的文化形成与传承;(3)几十年个体的学习与适应。 我们人工智能研究通常考虑的是第三个阶段。 ”其实我的意见是,研究人员何尝不想创造历史,打造一个与人类智力水平相当甚至超过的人工智能啊。可是一来生物学上对人类本身和动物界的智能行为研究不足,尤其是脑科学的落后,导致我们并不是十分清楚现在的智能生物怎么理解因果联系和产生价值观。二来是传感器的差异,想想看人或者其他动物身上有多少传感器啊,这些传感器可以观察并进行实践或践行物理世界的客观存在。现在仅仅给计算机一个摄像头或者听筒就让他拥有智能视觉和听觉已经不错啦。当然我也要明确指出,并不是说人就是人工智能的目标、榜样或例子,就像汽车运动之于人的跑动,达到移动的目的并不需要机器去尽力的复制模仿人。或许就像汽车轮子替代人类的腿这么风马牛不相及的东西完成任务完成的这么好一样。人工智能替代人类大脑也可以使用和生物学上大脑风马牛不相及的样子实现吧。
文章第五节讲人脑的主要信息来源视觉再人工智能领域的问题。作者的意思是应该使用一些生活常识和几何常识去理解画面,在三维重建中只需要对感兴趣的目标需求高精度,其他地方并不关心。而且在一开始也不需要很高的精度,在任务的进行过程中逐步调整。作者认为图像识别不应该使用图像特征去分类,用大量的图片例子和手工标注去训练。而应该去定义场景功能(比如一张多功能厨房的图片应该被识别成做饭、洗菜、用餐、聊天、吃饭等)。这不禁让人去思考,如何才可以从图片获取到图片所表示的功能?(2min后)似乎没有什么更好的办法啊。作者认为画面中物体的物理稳定性和关系的推理也是非常重要的,据研究人对于物理稳定性的反应很快,大概在100ms就能对将要倾倒的物体有反应。我猜这只是简单的预测吧,总感觉人对于自身运动的二阶导数(若人是静止的这里就指加速度,若人是匀速运动的这里就指加加速度)非常不敏感了,但是对于自身运动的一阶导数非常敏感(若人是静止的这里就指运动的物体,若人是匀速运动的这里就指加速度)。作者还举了一个例子来说明关系的推理:桌子上的番茄酱瓶子是道理放置的(直接可以看见)——》瓶子里的番茄酱不多了(推理出的)。作者还说了需要计算机去理解图中的意向、注意和预测。通过动物或者人眼睛的注视的方向推测其动作意向。其实我觉得这和作者提出的前一个需求是基本一致的,就是基于一阶导数的预测。作者还提出应该任务驱动的因果推理与学习。还是说理解图像不仅仅在于图像,还在于图像外的知识。“一个人要完成的任务是砸核桃,改变桌子上那个核桃的流态。把这个任务交给UCLA一个学生,他从桌面上的工具里面选择了一个锤子,整个过程没有任何过人之处,因为你也会这么做。不过你细想一下,这个问题还相当复杂。这个动作就包含了很多信息:他为什么选这个锤子而不选别的东西,他为什么拿着锤这个柄靠后的位置?他挥动的力度用多少,这都是经过计算的。这还有几千几万的可能其他各种选择、解法,他没有选择,说明他这个选法比其它的选择肯定会好,好在哪呢?看似简单的问题,往往很关键,一般人往往忽略了。” 提供给学生的画面(环境)是一个小木桌上面有一个核桃和大刷子、镊子、铲子、大排笔、锥子、锤子。如果将上面的实验过程~教~给计算机。让其进行另一个实验,目的是一样的——砸开核桃吃核桃——环境变了:小木桌上面有一个核桃和书本、胶水、铅笔袋、矿泉水、橘子、香蕉、纸卷。这个任务对于计算机来说可谓难度登天,可是对于人类智力来说很好解决——用桌子腿砸。

这就是画面外的知识,这就是举一反三。作者强调了Spatial,Temporal and Causal Parse Graph(STC-PG),这个里面“包含了对空间的理解(包括物体、三位形状、材质等)、时间上动作的规划、因果的推理。……”STC-PG的表达不是从图像中得到的而是之前就想好的。从图像到任务到实现是“top-down”过程。少量的例子。作者总结的说“所以,我的一个理念是:计算机视觉要继续发展,必须发掘这些“dark matter”。把图像中想象的95%的暗物质与图像中可见的5%的蛛丝马迹,结合起来思考,才能到达真正的理解。……视觉研究的未来,我用一句话来说:Go Dark, Beyond Deep --- 发掘暗,超越深。”这应该是视觉工作者的方向了。
文章第六节,作者还说:计算机看到你之后还要知道你看到的画面和你的思考,正如(诸葛亮知道司马懿知道他的排兵布阵,司马懿也知道诸葛亮知道……)。
文章第七节,语言、对话——沟通的认知基础。通讯需要编码、解码、译码本,这是之前的研究。作者指出除此之外还需要共同的认知基础,比如外国人在一起讲笑话,中国人觉得不好笑,中国人谈论林黛玉,外国人不明白。作者还指出“从生成式模型的角度来看,语言就是视觉,视觉就是语言。”作者提出通讯或者对话的“一个认知模型。两个人之间至少要表达五个脑袋minds:我知道的东西、你知道的东西、我知道你知道的东西、你知道我知道的东西、我们共同知道的东西。还有,对话的时候你的意图是什么等等诸多问题。具体我不讲那么多了。”最后作者统一了计算机视觉、语言、认知、任务规划为“计算机的人把它叫做语法,对应于代数拓扑。比如,头和脖子在肩膀上是合规的,概率很高。这个图像空间的结构其实就是语法,这个语法就是STC-AOG,时空因果的与或图。语法可导出“语言”,语言就是一个符合语法的句子的总的集合。STC-AOG就是知识的总体表达,而我们看到的眼前每一个例子是由STC-AOG导出来的时空因果解译图STC-PG。计算机视觉用它,语言肯定用它,认知是它,机器人任务规划也是它。这就是一个统一的表达。”
文章第八节讲博弈和伦理。作者提出用价值函数描述人的价值观,他举例用人们喜欢做什么样的椅子,是由身体部位受力不同导致的,统一了达尔文和牛顿。计算机一旦知道了人选择椅子的价值观就可以设身处地的为人着想,为人选出最合适的椅子,就能适用不同的椅子和不同的人(有腰伤的就需要腰部少受力)。人工智能不仅要会归纳,还要回演绎。作者又举例AlphaGO,之前的是从人类经验和无数对局中学习,最新的AlphaGO已经实现了自我演绎。
文章第九节通过一个例子介绍机器人。我会讲机器人得到的信息都写出来,然后省略机器人的处理,直接写出机器人的表现。机器人在一个房间内已开机,研究人员从外面敲门,机器人听到敲门声,机器人开门。机器人看到研究人员双手拿了一个蛋糕盒子,机器人询问是否需要帮助。研究人员说要放到冰箱里面,机器人打开冰箱门。研究人员把蛋糕放在冰箱后坐在椅子上,拿了一个可乐罐摇了摇(可乐罐是空的),机器人再次打开冰箱门取出一罐可乐递送给研究人员。例子到此结束。现在我来尽量说明这背后的巨量的工作:机器人要知道自己应该站在房间中的哪个位置,也要知道这个房间哪些位置可以站立。机器人要考虑因果关系,知道之所以有敲门声(知道这个声音是敲门声而不是噪声或者其他)是因为有人需要开门,进而去实现开门这个动作。机器人要知道人的双手是什么状态的,还能与人进行对话,从对话中获得人的需求,进而帮助人打开冰箱门。观察人的动作,理解人的意图(喝可乐),进而帮助人去实现(喝可乐)……

文章第十节讨论了学习的极限和学习“停机问题”。感觉这里已经到了作者的认知边缘了,说的比较简单,但是在未来五十年都是值得重视的问题。机器人去求教一个问题的时候,他应该知道自己现在不知道这个问题,他也应该知道要请教的老师知道这个问题。老师机器人在解答时候要了解学生的学习程度,避免重复教学,要准确的提供新知识。机器人是否存在无法理解的概念,如何确定某个问题是机器人可以学会的或者永远也学不会的。如何确定不同机器人之间的价值观是否相左,如何确定机器人对某知识不感兴趣。所谓的学习的极限就是在这个动态过程中达到一个平衡。对此,我的理解是:对于基本生存知识应该是每个机器人都要掌握的,不然无法生存。其余的知识由任务驱动,人类需要他去做什么工作,就设定机器人对这类的知识感兴趣。在确认机器人是否可以学会这个知识可以设定动态阈值,如果超过阈值这个机器人依然没有进步或者进步过小就标记为学不会。
文章第十一节是总结:智能科学——牛顿与达尔文理论体系的统一。作者引用了一句话““一切物质事件都应当归结于一系列的有规律的原子运动,而不允许把任何生物的意志作为独立的原因。……物理学依赖于一种基本的信念:物理世界存在着完整的因果链条,””

我的话,跟着读了一整天吧,越读越有兴趣。因为这和我在学校选课《智能控制系统》时的设想几乎一样(反正没人看见看到,我就实话实说了),但是当时囿于用词和认知,没有这么系统的下功夫的总结出来。当然也没有实现出来。感觉浪费了在学校的很多时间。其实当时没有整理出来呢还有一个原因我没想明白:所谓的智能体要明白别的智能体的想法,这就是一个悖论啊。综合这篇文章和之前读AlphaGO的文章,现在看来可能是一个共同进步可以解决的问题吧,所谓“合适的对手”(AlphaGO那篇文章有讲)很关键。就像人类婴儿刚开始学习这个世界的时候,大人们很自然的装作很傻很蠢的样子,发出奇怪的的声音和做出弱智的动作。不过呢,话说回来,人工智能的方向就是人类智能的模拟么?难道没有人提出类似于车轮与腿关系的人工智能与人类智能的这个“车轮”么?也可能是几百万年来人类进化出的这个智能是最适合地球宇宙的吧……(外星人是怎么学习的?)不能再展开了……