欢迎光临散文网 会员登陆 & 注册

B站强推!这可能是唯一能将知识图谱讲明白的教程了,不愧是清华教授,半天时间将入门

2023-06-25 21:16 作者:酷口家读书会  | 我要投稿

[[人工智能博士]]

欢迎大家选修知识图谱这门课程

我是主讲老师陈华军

来自浙江大学计算机科学与技术学院

在这一讲中

我想先对知识图谱的来龙去脉

做一个概论性的介绍

我们将首先从语言和知识两个视角阐明

知识图谱是实现认知人工智能的关键一环

然后我们会追溯知识图谱的发展历史来说明

知识图谱不仅和人工智能有关系

而且具有非常强烈的互联网基因

接下来我们希望全面地探讨

知识图谱的广泛应用价值

同时知识图谱也并非一个抽象空洞的概念

它有自己非常明细的技术内涵和技术边界

我们希望通过第一讲让大家了解到

不论是从人工智能

大数据还是互联网的视角

知识图谱都是非常重要的技术发展方向

首先我们从语言和知识两个视角出发

引出我们这门课的主角知识图谱

我们的故事从人工智能的起源开始

大家可能都有所了解

早期的人工智能有两个主要的流派

一个流派称为连接主义

主张智能的实现应该模拟人脑的生理结构

即用计算机模拟人脑的神经网络连接结构

这个流派发展至今

即所谓大红大紫的深度学习

另外一个流派称为符号主义

主张智能的实现应该模拟人类的心智

即用计算机符号记录人脑的记忆

表示人脑中的知识等

即所谓知识工程与专家系统

我们这门课的主角

知识图谱可以归属于符号主义的流派

深度学习首先在视觉

听觉等感知任务中获得成功

本质上解决的是识别和判断的问题

我们可以打个比方

实现的是一种聪明的ai

但感知还是低级的智能

人的大脑依赖所学的知识进行思考推理

理解语言等等

因此还有另外一种ai可以称为有学识

有知识的ai

事实上

这两种ai对于实现真正的人工智能都很重要

缺一不可

那么什么叫认知智能

认知智能有两个核心的研究命题

一个是语言理解

另外一个就是知识的表示

人类通过认识世界来积累关于世界的知识

通过学习到的知识来解决碰到的问题

比如一个医生利用他的医学知识来给病人看病

而语言则是知识最直接的载体

目前为止

人类的绝大部分知识都是通过自然语言来描述

记录和传承的

同时

反过来正确地理解语言

又需要知识的帮助

这里有个有趣的段子

马云对秘书说

中午帮我买肯德基

30分钟后

秘书回来说

买好了

一共4.6亿美元

这当然是一个玩笑

但马云的蚂蚁金服的确投资了肯德基的母公司

百胜餐饮集团

当然我们这里关注的是背景知识

对于理解语言的重要性

比如假如马云的秘书是一个人工智能

他在第一个语境中

应该把肯德基识别为一种食品

而在第二个语境中

应该把肯德基识别为一家公司

而且他还需要知道

肯德基的母公司是百胜蚂蚁投资的百胜

而马云是蚂蚁的实际控制人

才能正确地判断马云和肯德基之间的关系

这就是知识图谱

事实上

我们每个人的大脑里面都有大量这种类型的

关于万事万物的知识图谱

我们极大的依赖这些背景知识

来准确地理解语言和正确的做出判断

那到底什么是知识

柏拉图说

知识是justify to belief

实际上

人类的自然语言以及创作的绘画音乐

数学语言

物理模型

化学公式等

都是人类知识的表示形式和传承的方式

而具有获取表示和处理知识的能力

是人类心智

区别于其他物种心智的最本质的特征

所以传统的人工智能领域

有一个经典的研究方向

叫做知识工程和专家系统

这种经常被称为是good old fashion的ai的基本思想是

建立一个系统

能够从专家的大脑获取知识

这个从人脑获取知识的过程就叫做知识工程

再通过一个推理引擎来为非专家用户提供服务

比如辅助诊断判案等等

如前所述

自然语言是人类知识最主要的表达载体

既然人脑能够通过阅读

来从文本获取和学习知识

机器老也应该具备从文本中抽取知识的能力

但文本字符串似乎对机器不太友好

机器在理解人类语言方面仍然步履维艰

比如类似于微软小冰

苹果siri

小米小爱音箱等产品

在人机对话方面的体验仍然面临巨大的挑战

当前通过机器来理解文本中的知识

有两大主要的技术路线

第一种是抽取技术

例如从文本中识别实体关系

复杂的逻辑结构等等

第二种就是文本预训练

也就是通过大量的文本语料来训练

一个神经网络大模型

文本中的知识被隐含在参数化的向量模型中

而向量化的表示和神经网络是对机器友好的

所以文本本身也可以作为一种knowledge base

知识图谱是我们这门课的主角

简单地说

知识图谱旨在利用图的结构建模

识别和推断事物之间的复杂关联关系

并沉淀领域的知识

已经被广泛地应用于搜索引擎

智能问答

语言语义的理解

大数据的决策分析

智能物联等众多领域

知识图谱是一种结构化的知识表现形式

相比起文本而言

结构化的数据更易于被机器处理

比如查询和问答

同时图的结构比起单一的字符串序列

能够表达更为丰富的语义和知识

对于机器而言

图结构比文本更加友好

深度学习或者更为准确地说是表示学习的心情

表明参数化的向量和神经网络

是适于完成快速计算的信息载体

比如我们在自然语言中

可以为每个词学习一个向量表示

我们也可以为视觉场景中的每一个对象

学习一个向量的表示

为知识图谱中的每一个实体学习一个向量表示

我们通常把这些对象的向量化表示

称为embedding或distributed vector representation

如图所示

我们将所有数字对象的向量表示

投影到向量空间

我们会发现同一个数字对象的不同图像的向量

在空间距离更近

进一步

我们通过将词语

实体对象关系等都投影到向量空间

就可以更加方便地在向量空间对这些语言

视觉和实体对象进行操作

甚至可以利用神经网络来实现逻辑推理

这将是我们这门课的最重要的话题之一

我们这门课的主角知识图谱

本质上可以看作是一种世界模型

word model

纵观人工智能相关方向的发展历史

一直有一个核心的命题是寻找合适的万物

机器表示用于记录有关世界的知识

在传统的专家系统时代

人们发明了描述逻辑等符号化的知识表示方法

来描述万物

人类的自然语言

也是符号化的描述客观世界的表示方法

到了互联网时代

人们又设想用本体和语义

链接有关万物的数据和知识

这也是知识图谱的起源之一

随着表示学习和神经网络的兴起

人们发现数字化的向量表示

更易于捕获那些隐藏的不易于明确表示的知识

并且比起符号表示更易于机器处理知识图谱

同时拥抱机器的符号表示和向量表示

并能将两者有机地结合起来

解决搜索问答

推理分析等多个方面的问题

关于这一点的介绍也将贯穿这门课程的始终

最后我们做一个小结

人的大脑依靠所学的知识进行思考和推理

具有表示学习和处理知识的能力

是人类心智区别于其他物种最根本的区别

语言是知识的最主要的表示载体

语言与知识是实现认知智能最重要的两个方面

知识图谱是一种结构化的知识表示方法

相比于文本更易于被机器查询和处理

语言与知识的向量化表示

以及利用神经网络实现语言理解与知识的处理

是目前最重要的技术发展趋势之一

这一小节就讲到这里

谢谢大家


B站强推!这可能是唯一能将知识图谱讲明白的教程了,不愧是清华教授,半天时间将入门的评论 (共 条)

分享到微博请遵守国家法律