B站强推!这可能是唯一能将知识图谱讲明白的教程了,不愧是清华教授,半天时间将入门

[[人工智能博士]]
欢迎大家选修知识图谱这门课程
我是主讲老师陈华军
来自浙江大学计算机科学与技术学院
在这一讲中
我想先对知识图谱的来龙去脉
做一个概论性的介绍
我们将首先从语言和知识两个视角阐明
知识图谱是实现认知人工智能的关键一环
然后我们会追溯知识图谱的发展历史来说明
知识图谱不仅和人工智能有关系
而且具有非常强烈的互联网基因
接下来我们希望全面地探讨
知识图谱的广泛应用价值
同时知识图谱也并非一个抽象空洞的概念
它有自己非常明细的技术内涵和技术边界
我们希望通过第一讲让大家了解到
不论是从人工智能
大数据还是互联网的视角
知识图谱都是非常重要的技术发展方向
首先我们从语言和知识两个视角出发
引出我们这门课的主角知识图谱
我们的故事从人工智能的起源开始
大家可能都有所了解
早期的人工智能有两个主要的流派
一个流派称为连接主义
主张智能的实现应该模拟人脑的生理结构
即用计算机模拟人脑的神经网络连接结构
这个流派发展至今
即所谓大红大紫的深度学习
另外一个流派称为符号主义
主张智能的实现应该模拟人类的心智
即用计算机符号记录人脑的记忆
表示人脑中的知识等
即所谓知识工程与专家系统
我们这门课的主角
知识图谱可以归属于符号主义的流派
深度学习首先在视觉
听觉等感知任务中获得成功
本质上解决的是识别和判断的问题
我们可以打个比方
实现的是一种聪明的ai
但感知还是低级的智能
人的大脑依赖所学的知识进行思考推理
理解语言等等
因此还有另外一种ai可以称为有学识
有知识的ai
事实上
这两种ai对于实现真正的人工智能都很重要
缺一不可
那么什么叫认知智能
认知智能有两个核心的研究命题
一个是语言理解
另外一个就是知识的表示
人类通过认识世界来积累关于世界的知识
通过学习到的知识来解决碰到的问题
比如一个医生利用他的医学知识来给病人看病
而语言则是知识最直接的载体
目前为止
人类的绝大部分知识都是通过自然语言来描述
记录和传承的
同时
反过来正确地理解语言
又需要知识的帮助
这里有个有趣的段子
马云对秘书说
中午帮我买肯德基
30分钟后
秘书回来说
买好了
一共4.6亿美元
这当然是一个玩笑
但马云的蚂蚁金服的确投资了肯德基的母公司
百胜餐饮集团
当然我们这里关注的是背景知识
对于理解语言的重要性
比如假如马云的秘书是一个人工智能
他在第一个语境中
应该把肯德基识别为一种食品
而在第二个语境中
应该把肯德基识别为一家公司
而且他还需要知道
肯德基的母公司是百胜蚂蚁投资的百胜
而马云是蚂蚁的实际控制人
才能正确地判断马云和肯德基之间的关系
这就是知识图谱
事实上
我们每个人的大脑里面都有大量这种类型的
关于万事万物的知识图谱
我们极大的依赖这些背景知识
来准确地理解语言和正确的做出判断
那到底什么是知识
柏拉图说
知识是justify to belief
实际上
人类的自然语言以及创作的绘画音乐
数学语言
物理模型
化学公式等
都是人类知识的表示形式和传承的方式
而具有获取表示和处理知识的能力
是人类心智
区别于其他物种心智的最本质的特征
所以传统的人工智能领域
有一个经典的研究方向
叫做知识工程和专家系统
这种经常被称为是good old fashion的ai的基本思想是
建立一个系统
能够从专家的大脑获取知识
这个从人脑获取知识的过程就叫做知识工程
再通过一个推理引擎来为非专家用户提供服务
比如辅助诊断判案等等
如前所述
自然语言是人类知识最主要的表达载体
既然人脑能够通过阅读
来从文本获取和学习知识
机器老也应该具备从文本中抽取知识的能力
但文本字符串似乎对机器不太友好
机器在理解人类语言方面仍然步履维艰
比如类似于微软小冰
苹果siri
小米小爱音箱等产品
在人机对话方面的体验仍然面临巨大的挑战
当前通过机器来理解文本中的知识
有两大主要的技术路线
第一种是抽取技术
例如从文本中识别实体关系
复杂的逻辑结构等等
第二种就是文本预训练
也就是通过大量的文本语料来训练
一个神经网络大模型
文本中的知识被隐含在参数化的向量模型中
而向量化的表示和神经网络是对机器友好的
所以文本本身也可以作为一种knowledge base
知识图谱是我们这门课的主角
简单地说
知识图谱旨在利用图的结构建模
识别和推断事物之间的复杂关联关系
并沉淀领域的知识
已经被广泛地应用于搜索引擎
智能问答
语言语义的理解
大数据的决策分析
智能物联等众多领域
知识图谱是一种结构化的知识表现形式
相比起文本而言
结构化的数据更易于被机器处理
比如查询和问答
同时图的结构比起单一的字符串序列
能够表达更为丰富的语义和知识
对于机器而言
图结构比文本更加友好
深度学习或者更为准确地说是表示学习的心情
表明参数化的向量和神经网络
是适于完成快速计算的信息载体
比如我们在自然语言中
可以为每个词学习一个向量表示
我们也可以为视觉场景中的每一个对象
学习一个向量的表示
为知识图谱中的每一个实体学习一个向量表示
我们通常把这些对象的向量化表示
称为embedding或distributed vector representation
如图所示
我们将所有数字对象的向量表示
投影到向量空间
我们会发现同一个数字对象的不同图像的向量
在空间距离更近
进一步
我们通过将词语
实体对象关系等都投影到向量空间
就可以更加方便地在向量空间对这些语言
视觉和实体对象进行操作
甚至可以利用神经网络来实现逻辑推理
这将是我们这门课的最重要的话题之一
我们这门课的主角知识图谱
本质上可以看作是一种世界模型
word model
纵观人工智能相关方向的发展历史
一直有一个核心的命题是寻找合适的万物
机器表示用于记录有关世界的知识
在传统的专家系统时代
人们发明了描述逻辑等符号化的知识表示方法
来描述万物
人类的自然语言
也是符号化的描述客观世界的表示方法
到了互联网时代
人们又设想用本体和语义
链接有关万物的数据和知识
这也是知识图谱的起源之一
随着表示学习和神经网络的兴起
人们发现数字化的向量表示
更易于捕获那些隐藏的不易于明确表示的知识
并且比起符号表示更易于机器处理知识图谱
同时拥抱机器的符号表示和向量表示
并能将两者有机地结合起来
解决搜索问答
推理分析等多个方面的问题
关于这一点的介绍也将贯穿这门课程的始终
最后我们做一个小结
人的大脑依靠所学的知识进行思考和推理
具有表示学习和处理知识的能力
是人类心智区别于其他物种最根本的区别
语言是知识的最主要的表示载体
语言与知识是实现认知智能最重要的两个方面
知识图谱是一种结构化的知识表示方法
相比于文本更易于被机器查询和处理
语言与知识的向量化表示
以及利用神经网络实现语言理解与知识的处理
是目前最重要的技术发展趋势之一
这一小节就讲到这里
谢谢大家