智源论坛 | 张志华:“机器学习才是解决人工智能的王者之道”

2019 年 5 月 9 日,由北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)主办的“智源论坛——人工智能的数理基础”系列报告第一场开锣。论坛当日,北京大学张志华教授分享了其在人工智能数理基础领域的研究探索。
张志华教授来自北京大学,同时还是机器学习领域顶级杂志 JMLR 的编委,国内统计学习领域的学术带头⼈。其报告题为《数学⼯程——理解机器学习的⼀种⻆度》,认为数学工程是通向人工智能的一种途径,提出从“数学⼯程”的角度来理解机器学习。

报告⾸先回顾了机器学习发展的⼏个重要阶段:基于规则的学习、基于统计推理的学习、基于深度表示的学习等。同时还讨论了机器学习的四个基础原则:泛化性、稳定性、可计算性和可解释性等,并分析了解决这些问题的⼀些基本数学⼿段。
谈及此次分享,张志华坦言,他的看法和角度可能不一定是大家所公认的,但他这么多年的研究经历一直站在前沿,对机器学习、深度学习都有自己的理解。
他认为机器学习与人工智能有着本质上的不同,前者志不在模拟人的思维和行为,主要是想通过经验和交互的方式改善性能,是基于规则的学习。机器学习实际上是研究算法的学科,这个算法是基于数据型算法,然后反馈到数据中去。我们可以简单地把机器学习的过程看作这样一个思路,然后可以基于此看看机器学习发展的历程:

传统方法:基于规则学习
第一个比较成熟或者说比较有代表性的历程是基于规则的学习,其目的就是规则,用规则去做预测。但重点不在于怎么形成规则,而是试图把人类对目标的认知形式化表示,从而自然地形成规则推理,其代表的形态有专家系统和句法模式识别。其重点为特征工程,也就是从数据到表示,而这一过程也涉及大量深入的领域知识要求。

但这一阶段也暴露出一些问题,其一便是基于规则学习的方法虽然对于浅层推理比较有效,但遇上深层推理需求,如果形成规则过多,在其中搜索就容易出现前面的分享提到过的维数灾难问题。
为了解决这个问题,一个用一个强大的非线性学习模型来弱化数据到表示这个过程的作用,基于这样的理论,机器学习发展至第二个阶段。
统计机器学习:黄金发展十年
90 年代中期到 2005 年左右这十年,是统计机器学习发展的黄金时期。

与之相反的是,这一阶段的神经网络(80 年代就已经出现神经网络模型)则相对趋于比较低落的时期,表现平平,发展遇冷。主要原因在于这个时期的机器学习方法比神经网络要更为简单,性能也要更好,属性性质相对完美,自然而然地就取代了神经网络。
但随着这个统计方法发展到一定阶段,大家发现“数据到表示”这件事情还是绕不过去。而应对这一问题地一个简单的思路就是通过学习的途径来求解表示问题,从而弱化研究者对于领域背景高度掌握的要求,也就是通过一个自动化的方式来解决这一问题。
基于深度表示的学习
大模型+大数据+大计算使得这种思路变得可行,机器学习也进入了第三阶段。AlexNet 网络的提出在后来为这个问题带来了突破性进展,很多做计算机视觉的人在网络方面不停跟进,这些发展主要是基于视觉的。
深度学习发展至今,主要是有监督的,但是现在无监督的问题远多于有监督的问题,而且还更复杂。那么一个简单的思路就是要把无监督问题形成为与有监督类似的一个学习优化过程。

张志华认为机器学习的关键在于表示学习,表示需要适合预测和适合计算。而深度表示所面临的挑战包括:由于大数据的需要可能导致过参数化;由于多层的表示,导致问题高度非凸化。而机器学习的基础原则是可预测性、可计算性、稳定性以及可解释性。
关于机器学习和数学工程间的关系,他给出了这样的阐释:
统计为求解问题提供了数据驱动的建模途径;
概率论、随机分析、微分方程、微分流形等工具可以引入来研究 AI 的数学机理;
无论从统计角度还是从数学角度来研究 AI,其实际性能最后都要通过计算呈现出来:
数值分析,即求解连续数学问题的算法;
离散算法,即求解离散结构问题的算法;
大规模计算架构。
在最后的总结中,张志华指出,现在谈数学工程,一是统计,二是数学——统计为解决问题提供了最佳建模途径;而数学里的概率论、随机分析等工具可以用来研究 AI 的数学机理。而这一切最终都将通过计算呈现。机器学习=数学+工程,应用数学最重要的魅力在于帮助我们提出解决问题的思路或途径,而不仅仅在于证明理论;工程是技术也是艺术,它是算法的必要补充,是新算法提出的源泉;机器学习是数学和工程的完美结合体现。
关于主办方

北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)是在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立,依托北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评、旷视科技等北京人工智能领域优势单位共建的新型研究机构。