林乾:深度神经网络在参数量远大于样本量时不会过拟合的几何解释


当前人工智能面临如下重大的理论挑战:可计算性、可解释性、泛化性,以及稳定性。围绕这些基础问题,北京智源人工智能研究院从数学、统计和计算的角度,设立了“人工智能的数理基础”重大研究方向,并在该方向首先启动了三方面研究(可解释性的新型人工智能模型,新型的机器学习算法,深度学习的基础理论),以期打破基于计算机实验和神经科学的人工智能的惯用建模范式,建立以数学与统计理论为第一原理的新一代人工智能方法论。
2019 年 5 月 13 日,“智源论坛(第2期)——人工智能的数理基础”系列报告第二场再度如约而至。本次论坛在北京大学教授、智源研究项⽬经理夏壁灿的主持下正式开始。清华大学工业工程系统计学研究中心助理教授林乾分享了他在人工智能数理基础领域的研究探索。清华大学工业工程系统计学研究中心助理教授林乾的报告主题为《Towards a statistical understanding of deep network》,其在分享过程中表示,希望能够通过高维充分性降维理论和方法,得到深度神经网络在参数量远大于样本量时不会过拟合的几何解释。
林乾在报告开篇再次强调了数学与统计学的差异,即前者确定性多一些,后者则是对问题思考的本身,哲学思辨更多。

在统计或计算机数据科学中,大家最关注的一类问题是回归和分类:我们观察的数据通常都是一些协变量,同时对一些响应变量感兴趣,通常情况下我我们会对这些数据进行建模,建模时一般认为这些数据间有关系,然后用协变量对响应变量做解释。

第一个,也是大家司空见惯的就是有一个线性回归,就认为 Y 是线性依赖于我们的响应变量,统计中很多时候没办法做到确定性,对于没观察到的/不知道的,通常会作为一个噪音引入。这就可能涉及到很多问题,比如观察到的 X 太少,导致噪音特别大等。从线性模型提出,到现在至少半个世纪过去了,高维数据的分析已经研究得很透彻,这个模型有一个很明显的缺陷,就是此时的 Y 线性依赖于 X,如果 Y 是零一变量,就肯定没法用线性模型。
这时就会转向 Logistic regression,考虑 Y=1 给定 X 的概率密度的比值。从这两个模型来看,我们的假设都是说,如果给定 X 指向一个方向的投影,试图用这个投影去解释 Y。
这种情况下如果更进一步来看单指标模型,Y 可以非参依赖于这个投影,F 是一个不知道的函数,此时可以用非参的方法或是其他方法,就相当于增加一种建模方法。但和前面一样,你假定 X 给定一个方向去解释 Y,这一点我们即使在做 PCA 的时候,都知道一个 Principal Component 可能不能解释大部分方差,所以我们可以把这个模型变得更加广泛一点,变成多指标模型,我可以考虑 X 向若干个方向的投影,投影下来之后,我再用这些东西来解释 Y,所以这里实际上是两步过程,先做一个降维(Dimension Reduction),再做一个非参数回归,或者用其他办法。

这里假定 X 是不知道的,当然这个模型很宽泛,我们能想到的所有模型都可以由它来逼近。但这里的问题是,这个时候 β1、βd 没办法单独估计,丢失了可识别性。相对来说它的好处是,这时 β1 到 βd 张成的空间是可以估计的,所以这两个观察又使大家在过去二十年提出了一个充分性降维(Sufficient Dimension Reduction,SDR)的统计框架,主要想法就是,如果认为数据是从这样一个模型出来的,我们主要的着力点就在于估计由 β1 到 βd 张成的空间,得到这个空间之后再去做非参数回归,所以这个想法相对简单。在过去若干年也产生了很多方法,例如 Sliced inverse regression、Sliced Average Variance Estimation 等很多,过去二十多年基本上都是围绕这一思路来提出这种算法。
当然回过头来看,大家对线性回归已经研究得很好了,都觉得如果这个模型是线性的,就可以解决所有问题。现在我们对机器学习的要求是可解释性和稳健性等,但如果我们提的要求线性模型都做不到,也就不应该再对一般模型提更多要求。
对于线性模型,如果不做任何假设,样本量小于维数时,就无法估计 β。二十世纪九十年代到二十一世纪初,有提出可以加 Sparsity Assumption,这一时期的代表作包括 Tibshirani 的 Losso等:

对线性模型而言是如此,那么单指标模型是否也同样存这些问题?
过去 20 年来,以分片逆回归为代表的充分性降维方法在实际应用中取得了很多成功,但是对于高维数据,这些方法都面临各种各样的不足。领域内的专家一直希望能够建立相对丰富的充分性降维方法的高维理论。
林乾过去几年主要致力于从统计决策理论角度理解充分性降维问题,成功探明了分片逆回归方法在高维数据时所面临的理论障碍,并通过系列工作建立了从线性回归到非线性多指标模型之间的一座桥梁,从而指出一个潜在可能性:线性回归的理论方法可以平行移植到单指标或者多指标模型中去。围绕这个突破将会产生一系列的衍生问题,从而极大地丰富充分性降维问题的理论与方法。

关于主办方

北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)是在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立,依托北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评、旷视科技等北京人工智能领域优势单位共建的新型研究机构。