欢迎光临散文网 会员登陆 & 注册

【脑机接口论文分享】基于大脑信号重建图像-1

2023-07-18 11:09 作者:Brainbase-Future  | 我要投稿


本次要分享的论文是——通过潜在扩散模型从大脑活动中重建高分辨率图像。

首先是论文背景。这篇文章发表于 CVPR 2023,公开日期是 2022 年 11月21日。作者来自于日本大阪大学前沿生物科学研究生院和日本信息通信研究机构。论文研究的主要问题是从功能核磁共振图像获得的人脑活动重建视觉图像。

之所以选择这篇文章进行分享,是因为他是在脑机接口领域结合了AIGC大模型比较早期的作品,可以说最近比较火的工作都能看到他的影子。比如说这篇发表在 Nature Neuroscience 上的来自德克萨斯大学的工作,发表日期是2023年5月1日,他通过非侵入式的功能核磁共振成像fMRI 收集大脑活动信息,并将思维转化成语言文字。还有这篇发表在 Nature 上的来自瑞士日内瓦洛桑联邦理工学院的工作,发表于5月3日,他解码了通过电极探针获得的小鼠视觉皮层活动,重建了小鼠正在观看的视频。

我认为这几项研究都有共同之处,所以选择了这篇比较早期的文章进行分享。

接下来我的分享将由两个部分组成,分别是本文介绍和我在这个方向上的一些思考。其中,本文介绍的内容包括相关工作、实验设计、结果及结论。我们的工作部分包括一个算法框架的初步设想,还有在这个框架下设计的应用Demo展示。

计算机视觉的基本目标是构建能够像人类视觉系统一样看待和识别世界的人工系统。对大脑活动的测量和深度神经网络模型的发展,为用神经网络的方式解构人脑提供了依据。这些工作包括了从大脑活动中重建图像和和研究人脑和神经网络计算过程间的对应关系。

本篇文章不是研究人员尝试从fMRI中重建图像的第一次尝试,在此之前,人们就从大脑活动中重建视觉刺激,重建刺激语义内容,重建想象内容和重建感知的情绪等方面展开了相应的研究。比如,在2011年,来自伯克利的研究人员就尝试使用功能和磁共振成像和计算模型,重建大脑的动态视觉图像。如图所示,左图是原始视频,右边是从大脑活动中重建的视频。可以说,研究者重现了人类大脑看过的片段,但是几乎无法辨认。一部分原因是当时深度学习还没有流行起来,导致算法重建能力较差。

近年来,研究人员尝试使用GAN和自监督学习等方法通过fMRI重建视觉图像。最近的研究使用语义内容作为辅助输入,提高了语义保真度。但是由于大脑相关数据量少,且训练复杂的生成模型较为困难,上述研究都存在一定的局限性。

最近,扩散模型在生成任务上取得了优异的效果。该模型的一个典型的应用是给定文字,生成相应的图像。在这个任务上最火爆的模型无疑是由 Stability AI 推出的stable diffusion。该项技术使用到的 LDM 模型在语义保真度和图像分辨率上都取得了很好的效果。

如右图所示,LDM是一种概率生成模型。在数据处理阶段,该模型通过使用图像编码器,提取数据集图片特征,并对特征不断加噪得到相应的标签。模型任务是使用加噪后的特征zt生成想要的图像,通过迭代去噪将高斯噪声中的采样变量恢复为学习数据分布的样本。由于本应用要实现文生图的操作,因此在解码阶段混入了文字信息进行联合训练。

本文能想到使用 stable diffusion 进行训练还有一个原因就是他在2021年进行了开源,本研究直接使用了该模型的 1.4 版本。

数据集部分,本实验使用的 NSD 大规模fMRI数据集由明尼苏达磁共振研究中心提供。该数据集包括受试者看到的图像 和 对应时间使用 fMRI 记录下的大脑活动,该数据集包含了八名被试。本作者使用了其中四名受试的数据。每个受试的样本量为27750对,使用2770对作为测试集,剩下的24980对作为训练集。由于相同图像每个人会看三次,所以测试集中对相同图像的三次实验取了平均值。

在实验设计方面,本文从解码器和编码器两种思路展开实验设计。在解码器部分,作者研究了如何从fMRI中重建图像。在编码器部分,作者研究了如何从LDM模型中的各种组件中,恢复 fMRI测量的大脑活动,即全脑体素信息。

具体而言,解码器的运算步骤为:首先由fMRI信号预测用于生成图像的潜在表示z。z通过LDM的解码器得到图像 xz,作为后续 LDM 完整训练流程中的图片数据。将xz图片大小调整到步骤二中训练所需大小,用LDM编码器处理xz,通过扩散过程为其添加噪声。用腹侧视觉皮层fMRI信号预测文本的潜在表示c。和图像的潜在表示zt作为U-Net输入产生zc,zc通过解码器生成重建图像。

实验中的一些具体细节包括:使用L2正则化线性回归,模型针对每个受试构建,使用5倍交叉验证搜索正则化参数,作为对照组,仅使用z或c生成图像等。

评估指标包括客观的感知相似性度量PSMs,和主观的人工评价,由评分员针对生成图像对原始图像的相似度,做出6个挡位的打分。

对于第二种实验思路,如何进行由LDM组分到fMRI大脑活动的全脑体素建模,作者从四个方面设置了模型。首先,建立了线性模型,从LDM的三个潜在表示z,zc和c预测体素活动。即,对潜在表示进行比较。由于这种设置下,z和zc对体素预测较为相似,作者又设置了实验二,将z和zc放到同一个模型中,探究不同的噪声级别对这两个特征生成效果的影响。实验三探究了zc在去噪过程中如何变化,从去噪早期,中期和后期提取zc,构建于实验二中z像结合的模型,将其独立方差映射到大脑皮层上。实验四探究了LDM中最后一个黑盒,U-Net特征的独立方差。

评估方式就是各LDM组分对大脑体素的预测结果和原始fMRI信号之间的相关系数和独立方差。

(介绍未完待续,请见下一篇文章)

【脑机接口论文分享】基于大脑信号重建图像-1的评论 (共 条)

分享到微博请遵守国家法律