【花师小哲】当代炼金术(神经网络)前沿(21)——离大谱,脑信号还原图像?
大家好,今天我被一篇论文震惊一整年:

这篇文章做了什么呢?简单来说,就是从我们的脑信号中还原出了图像,部分结果如下:

实验是把原始图像(上面一排)给被试看,记录下他们的脑信号,然后还原出下面一排的图像。这个结果已经很惊艳了。恰巧我本科是学过脑科学的,所以讲这篇论文倒不太需要太多事先准备,看能不能赶在其他自媒体讲之前抢个先手。

1.谈谈脑
我不是医学生哈,如果有专业人士路过请轻喷,智能系的脑科学毕竟学的很浅。
简单来说,我们大脑对视觉的处理还是蛮复杂的。大脑上有很多和视觉相关的皮层,不同的皮层所起到的作用是不一样的,并且是分级的。当你的视网膜上出现图像的时候,信号最先给到低级视觉皮层,之后一级级处理,到了高级视觉皮层,大脑就能从视觉图像得到一些新的东西,例如一些认知(例如哪里有只狗)或者指挥行动的信号(有东西朝你飞过来你会下意识闪避)。当然,这个过程比我描述的可复杂多了。
大脑在活动的时候会产生很多信号,例如脑电信号,不同的信号有其不同的作用。本文研究的是fMRI信号,和核磁共振相关,简单理解成脑信号即可(毕竟其实对后续理解的关系不大)。从fMRI信号还原出图像其实很早就有了,但是效果一直不理想。哎,这不最近Diffusion模型在AI绘画届杀疯了嘛,所以这篇文章就用上Diffusion。

2.Diffusion模型
撇开噱头,这个论文的研究还是有点东西的。我们还是来复习一下Diffusion模型。也可以去看之前的专栏:
【花师小哲】当代炼金术(神经网络)前沿(8)——Diffusion

如图所示,这是一个Latent Diffusion模型(具体的模型我不是太懂,毕竟不做视觉,但还是讲讲Diffusion基本思路),分为两部分,上面可以看做是编码器,下面可以看成是解码器。
上面(编码器)所做的工作是把一个真实图片X经过一系列步骤得到一个向量。这个步骤叫做diffusion,简要来说就是逐步给图片加噪声(这里是对编码后的图片加噪声),或者说,把图片整的面目全非
下面(解码器)所做的工作是从一个向量到图片,简单来说就是把面目全非的模型一步步还原成原本的样子。当然这一步多了一个步骤,就是增加文本信息。毕竟大家也都知道很多Diffusion模型都是输入文字生成图片的。这里的τ来源于CLIP的编码器,关于CLIP的内容见:
【花师小哲】当代炼金术(神经网络)前沿(20)——CLIP:打破原图片分类范式
(真的非常巧,CLIP我前两天刚刚看的,于是看着一篇也不需要提前做功课了)

3.怎么把脑信号扔进去
下一步要做的就是把原始模型中的某些部分用脑信号替换掉了,如下:

(i)第一步其实就是用传统方法从低级视觉皮层的脑信号中还原出一副粗糙的图像,将这幅图像当做是编码器的输入
(ii)第二步就是直接用Diffusion模型的编码器,得到一个输出
(iii)将整个输出给Diffusion模型的解码器,文本部分用高级视觉皮层的脑信号来代替,这样就可以还原出一张图片
整体来看思路还是挺合理的,毕竟低级视觉皮层一般会保留视觉的原本信息,高级视觉皮层会保留更多的高阶信息,可能和语言信息比较相近。

4.结语
这篇论文的研究当然不是为了好玩或噱头,这是一篇研究机器视觉与人的视觉的联系的很重要的文章,也有利于我们更好地理解人的视觉的处理过程。如果这一步我们搞得足够清楚了,之后就可以更好地分析一些视觉障碍人士的病因并给他们提供帮助甚至治疗。
当然,如果这技术被不怀好意的人利用其实还是挺危险的(例如从脑信号中还原出一些“秘密”)。
估计之后就会有人把Diffusion换成ChatGPT之类的并从脑信号中提取“人的思想”了,想想挺恐怖的。