Transformer结构暗含图神经网络可能成为深度学习的大统一模型
从某种意义上来说Transformer超越了图神经网络。
首先Transformer通过自注意力机制计算了一句话中两个单词之间的相对关系,每个单词可以看作图的一个节点,相当于自注意力机制拟合了输入集合元素之间的图关系。
因为自注意力机制计算了输入的集合中两两元素之间的关系的评分,而这种评分就可以看作是图中的度规。
将输入集合中的每个元素都与其他元素进行评分的计算之后,就相当于构建出了一个输入集合元素之间的拓扑关系。从而隐式的构建了一个图结构。这个图结构就储存在我们训练好的神经网络的参数中。并且这个图结构也就是输入集合元素之间的拓扑关系是我们通过训练让神经网络自动学习到的。

其次Transformer通过位置编码使之可以接受一个序列的输入。
所以Transformer既可以处理具有图结构的对象,又可以处理序列。
取消位置编码,可以使Transformer变成一个处理具有图结构而不具有序列性质输入的神经网络。
比起使用邻接矩阵这种方法来表述图结构这种非欧式结构,Transformer这种“软表示方法”,即,把图结构暗含在神经网络中的表示方法可能能更好的表示非欧式拓扑结构。
所以说也许不是图神经网络可以作为大统一模型涵盖Transformer,而是Transformer可能成为大统一模型而涵盖图神经网络。
这也解释了为什么大语言模型ChatGPT可以通过输入分子结构中两原子之间的相互连接关系来判断它属于哪一类的有机化合物。

也就是说Transformer本身就通过自注意力机制具有了图神经网络的推理属性。
Transformer可能拥有比图神经网络更低的计算量以及更好更全面的性能,并且它也有可能涵盖所有的网络的模型结构成为第一个大统一模型的雏形。
图片引用参考
[1] 《神经网络与深度学习》邱锡鹏
[2] https://www.zhihu.com/question/528852359/answer/2947017864?utm_source=qq&utm_medium=social&utm_oi=1151471599730483200