智源论坛 | 董彬:走出牛顿的苹果园,从大量数据中推出科学规律

2019 年 5 月 9 日,由北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)主办的“智源论坛——人工智能的数理基础”系列报告第一场开锣。论坛当日,北京⼤学副教授董彬分享了其在人工智能数理基础领域的研究探索。

作为青年千人计划⼊选者、国内图像处理领域⻘年学术带头人,北京大学的董彬副教授还建立了图像科学两大数学方法的联系,并在数学领域顶级杂志 JAMS 上发表论文。他此番率先带来了《Bridging Deep Neural Networks and Differential Equations for Image Analysis and Beyond》主题报告,探讨数值微分方程启发深度学习建模,即如何在深度神经网络和微分方程之间建立联系,重点围绕其团队近两年的研究成果展开分享。从应用或计算数学的角度来来理解深度学习,希望架起这个桥梁之后可以给网络构架的设计,以及一些理论相关的研究提供一些新的指导思想。

据 Google Trends 数据显示,自 2015 年起,深度学习的关键词搜索频率开始呈快速上升趋势。除却 AlphaGo 等里程碑式的优秀成果之外,深度学习也不可避免地存在着诸多问题,Ali Rahimi 在2017年的NIPS颁奖礼上就曾做过一个报告,提到“Deep learning is ‘alchemy’” ,这里的“alchemy”就是所谓的炼金术,很多人都认为深度学习就像炼丹一样,把你的 formula 塞进去过个几个小时或者一两天才能看到结果,但却不知道下一步应该怎么调,只能通过尝试。
谈及此,董彬还重点介绍了邢波(Eric Xing)针对这句话提出的一个观点,即“Being alchemy is certainly not a shame,not wanting to work on advancing to chemistry is a shame! ”——化学的前身就是炼金术,在没有系统理论指导的情况下是炼金术阶段,但被赋予系统的理论指导之后就从一个看似纯实验的学科变成有一定理论体系的科学,这也是所有想做基础理论学者的目标——赋予深度学习一套科学理论,做到 Mathematical / Theoretical Deep Learning。
之所以要这么做,是因为如今看起来长势甚好的深度学习仍然面临着各种各样的挑战:
标注缺乏(或者说非常高质量的标注相对缺乏):即便已被广泛使用的ImageNet,label 的噪声也很大。即使标注非常丰富的计算机视觉领域也会有碰上各种各样的问题,更何况是在标注难以获得的生物医疗领域。
如何在多样的数据上学习:AI 的应用落地需要足够广泛的适用场景,因此模型也需要从不同的数据类型中学习,因为人类作出判断不仅是看一张图像,而是结合诸多信息,通过各种各样异构的数据作出决策。怎么样在多样的数据上学习,依然是挑战。
使深度学习模型更加透明:深度学习的效果时好时坏,正误尤为极端,时而完美,时而又错得离谱,其间问题为何?我们希望能够借助在设计时(设计网络构架/设计模型/设计优化算法)提供理论指导,从而使深度学习更加透明。而这最后一点挑战也恰恰是人工智能数理基础关注重点。当下的深度神经网络不透明,调参数、训练,再到测试人人可为,却无人能解其深意,这正是该项研究要解决的问题。

如何提供指导?许多优秀的数学家正在通过很严谨的理论分析去证明部分性质,但董彬团队走了另外一条路——先探寻深度学习训练及网络构架与数学中的哪些概念有关系,找到这个关系后就知道从哪里开始分析。例如可将深层网络理解成微分方程,或者将网络构架理解为微分方程的的一种离散形式,在这种情况下,网络训练对应的就是 Optimal Control,包括强化学习也可以用连续控制的观点来看待。据可考资料显示,最早提出这个观点的是鄂维南,他在 2017 年的一篇文章里分析了残差网络(Residual Networks, ResNets)和动力系统的关系。
这个桥梁一旦搭起,基本上就可知道从数学中的哪个领域出发去理解深度学习。鉴于此二者近年来相对独立的发展态势,彼此有很多思考可供借鉴,拓宽思路之余也会发现很多有趣的新应用。
我们先来看 DNN(深度神经网络,主要是卷积网络)和数值 ODE 之间的关系。以 AlexNet 为例,若要用数学形式写出,可以将其看作一个动力系统,但是这样的动力系统很难分析,因为缺少特殊结构,这样一般形式的动力系统不知该如何入手。

相比之下,如果把残差网络的数学形式写出来,就很容易看出它是对下面这连续的 ODE 基于时间做了前向欧拉离散,只不过在网络设计时把 Δt 设成了 1。有些工作已经发现,把 Δt 设得更小,训练反而更加稳定。

这是很有意思的观察,但还要考虑残差网络和动力系统的联系是否是特例或偶然,还是一般规律。更重要的是,假如我们建立了 Numerical ODE 和网络构架这样的联系,那么能否从 Numerical ODE 这一发展了几十年的领域中去反推出一些有用的构架?而反推出的构架很多时候都是新的构架,那这些新的构架到底有没有用?这是董彬想回答的两个问题。
除此之外,深度学习训练时还会遇到各种随机扰动,这可提升训练效果。如果在训练时加上一些随机扰动,比如随机加一些噪声,那么其对应的动力系统是什么,自然而然地会想到随机偏微分方程。到底是不是呢?有两个例子,一个是 shake-shake,一个是 stochastic depth,都是对于残差网络设计的随机扰动训练。

总而言之,董彬的目标是建立起数值 ODE 和网络构架设计之间的关系,并借此从计算数学反推网络构架。利用数学的直观,设计网络构架时就知道应该对深度是有压缩,知道其可能带来的性能提升,也可以解释为什么有这样的提升。
在我们拥有海量数据前,提出新的科学假设往往基于人类观察的现象(苹果坠落之于牛顿),如今,采集数据的手段越来越先进,大量三维甚至四维的数据涌入,我们怎么能够通过大量数据来提取规律?
数据科学的终极目标就是利用计算,然后从大量数据中发现新的规律。一方面 PDE 是描述很多动态数据非常自然的工具,另一方面深度学习又是表达能力及学习能力都非常强的工具,能否将两者结合?关于这一点,董彬想要应用的主要场景是生物和医学的动态分析,以及如何用深度学习结合 PDE,结合传统的建模思想,解决很多历史遗留问题。一者希望能够利用深度学习的强学习和强表达能力,再者希望借助 PDE 给深度学习模型一定的可解释性。
董彬介绍了他们团队如何利用深度学习端到端的训练思想和深层网络强大的表达能力,结合数值PDE方法,提出一个如何从海量数据中学习未知PDE模型并同时能做精确预测的算法框架“PDE-Net”。PDE-Net的特点如下:
自然地将先验信息与网络构架相结合,即将模型驱动与数据驱动相结合;
在训练PDE-Net时,给其中的卷积核做适当的约束使其能够逼近各阶微分算子,赋予神经网络一定的透明度(这一灵感来自之前的理论研究)。因此,PDE-Net能够在保证预测能力的同时也保证模型的可解释性。

分享最后,董彬对此次的报告内容做了一个简要总结,并对未来的研究方向做了一个大体汇报:我们之前的工作实际上是在 Numerical Differential Equation 和 Deep Nearchitecture 之间搭起一个桥梁,很多时候这个桥梁是经验性的,因为目前我们还缺少理论,只是做了一个直观性的观察。但现在通过观察提出一些新的网络构架,实际效果也不错,下一步希望能够借助智源的支持,做一些理论分析。还有就是通过搭起这个桥梁,我们是否能够从数学角度出发设计出更加 robust 或者说更加紧致的深层网络,因为现在的网络很容易被攻击,而且参数巨多无比,很难在边缘设备上实现。此外,我们希望能够真正尝试从真实的生物学动态数据里面去学一些 principles。