大神论文解读:无限层数GNN之PPNP
这位大神一直在搞科研,学姐逛知乎的时候看到了她的动态,就厚脸皮的求了一篇论文解读来给大家!学姐一个人是做不到一周肝一篇论文解读的,嘤嘤嘤~

废话不多说,快认真起来!
大神说她今天再次get到了PPNP模型的美妙,想和大家分享一下~
所以本文会尽量写的简洁一些,不是原文的逐句翻译。更想给大家传递的是PPNP的带给我们的灵感,从更加宏观和开阔的视角去看待GNN。

大家可以关注一下本文后两部分,给大家分享了:PPNP是如何打破常规GNN进行设计的,以及怎么优雅的使用PPNP。

论文标题:PREDICT THEN PROPAGATE: GRAPH NEURAL NETWORKS MEET PERSONALIZED PAGERANK
作者:Johannes Klicpera, Aleksandar Bojchevski & Stephan Gu ̈nnemann
论文地址:https://arxiv.org/pdf/1810.05997.pdf
代码:https://github.com/klicperajo/ppnp
一. PPNP是啥?
1. PPNP 要解决怎样的问题
传统的GCN长这样:

PPNP想要diss和解决GCN存在的两个问题:
1)过平滑问题
GCN用的是简单的邻居平均的聚合策略,那么叠加多层之后:节点的表示就丧失了它的局部信息,表示趋于一致,即过平滑现象。
2)长距离依赖问题
每一层都要进行一次节点特征的变换(公式中[XW]部分),即每一层我们都要学习一个全新的权重矩阵。
这样做的影响就是:如果我们想要获得更远距离的邻居信息,就要通过叠加深层的GCN,那就意味着需要学习大量的参数。
2. PPNP的源起(从个性化Pagerank到GCN的消息传递)
PPNP的传播策略是从个性化Pagerank衍生而来的,作者利用图卷积网络(GCN)与PageRank的关系,提出了一种改进的基于个性化PageRank的传播方案。
之前我们提到了GCN的过平滑问题,有论文证明:节点的信息会以随机游走的方式向周围节点传递。
假设消息传递了无穷层,那么这个随机游走分布将会收敛于一个稳定值,即,获得的信息过分的global了,完全独立于根节点本身的信息。
personalized PageRank(PPR)
PPR的一大亮点就是能使用节点自身的特征信息,把根节点自身的信息显式的加进来了:

其中,ix为根节点x的指示向量,它是一个one-hot向量。传送概率α∈(0,1),能够控制根节点x自身的控制力。通过解上式,能够得到节点x的向量表示:


矩阵中的元素[yx]就代表信息传播过程中节点x对节点y产生的影响。
3. PPNP模型(从消息传递过程到深度GCN模型)
PPNP的消息传递
PPNP模型就是把上面的PPR矩阵搬过来,让节点信息H在PPR 矩阵上的传播,外面加了个softmax非线性变换:

这个传播公式和GCN的本质差别就在于使用PPR矩阵代替了原来的邻接矩阵。这个替换就很妙,成功的克服了对邻居节点做平均的聚合过程的局限性。
PPNP的架构设计
传播过程确定了,我们再来看看它是怎样设计PPNP的架构的。
回忆一下以往的图神经网络两个重要步骤:
1)特征变换:H=XW;
2)沿着图结构进行消息传递:AH。
每叠加一层GNN都要重复以上两步,这两步生生世世不分离,整个过程就是:

即每层GCN要学习一个新的权重矩阵W,这也是我们上面说到的GCN无法捕获长距离依赖的原因。
PPNP就不一样啦,它仅仅通过一个MLP完成了整个模型的特征变换(这个MLP包含了所有要学习的参数):

即先通过一个特征提取器获得了一波节点的信息,再把提取后的特征送到MPNN中,随便你再传播几层,传播多远,都不会再引入额外的可学习参数了。这就是 PPNP 的另一大亮点:解耦了特征变换和消息传递过程,神经网络的深度完全独立于传播算法。保证了我们获得更远距离信息而不会过度参数化。
4. APPNP 模型(PPNP的巧妙近似)
由于上面的传播过程有一个矩阵求逆的过程,这在实际的计算中花销非常大,作者又给出了一个PPNP模型的近似,APPNP:

二. PPNP的优势
1.PPNP怎么打破常规的?
PPNP给我们一个全新的思路,可以从更加宏观的角度去看待GNN模型:AXW表达的就是节点特征能够在图结构上进行信息传播。
至于图结构信息怎样表达,以及消息传递与特征变换以什么形式结合,都不再局限于唯一的方式了。
PPNP利用PPR矩阵代替了传统的邻接矩阵形式,GNN中特征提取过程也可以完全独立于消息传递。
2. PPNP的优势是啥?
PPNP模型中只有MLP的参数是可训练的,不是每一层都有一个新的W了,参数量少了,训练速度快呀。
PPNP 的解耦结构,允许我们用一层MLP捕获无限远的邻居信息。
PPR 矩阵的引入缓解了过平滑问题,显式的考虑了节点自身的信息。
模型具有可扩展性。
三. 如何优雅的使用PPNP?
1.用更优秀的结构信息代替邻接矩阵
邻接矩阵不是我们传播信息的唯一途径,可以尽情的花式替换,既然PPR矩阵的作用是缓解过平滑,那么其它的矩阵也能发挥其自身的优势才能。
例如:发表在ICLR 2021 的论文 SIMPLE SPECTRAL GRAPH CONVOLUTION就使用了Markov Diffusion Kernel 代替了邻接矩阵,并重新设置了更简单的特征提取器。
2. 用更好的特征提取器代替MLP
PPNP解耦都过程给了我们机会用任何与任务相关的NN代替MLP,自由的设计自己的特征提取过程。
文章来源:https://zhuanlan.zhihu.com/p/417615165
原作者:图子 GNN/NLP/饿霸/北邮博士在读 阅读原文直达主页
免责声明:所载内容来源互联网(已获授权),仅供参考。转载稿件版权归原作者和机构所有,如有侵权,请联系我们删除。
