Cell Reports |腹侧与背侧前额叶-纹状体环路编码强化学习中的目标价值和行动的执行

撰文丨东华君
责编丨刘斐雯
排版丨星琪
本文是作者对其刚发表的论文的解读。该项研究于2022年1月4日发表在《细胞·报告》(Cell Reports),题目为:Differential coding of goals and actions in ventral and dorsal corticostriatal circuits during goal-directed behavior。

众所周知,我们的视觉信息的处理系统由空间上分布于大脑皮层的腹、背侧的两条通路组成,分别为处理空间信息的“what”和处理形状信息的“where”通路。这两条通路不仅分布于视觉皮层,还对应地投射在腹、背外侧前额叶皮层上。并且,这种拓扑结构的组织形式,除了存在于视觉系统,还存在于其他的感觉处理系统,包括听觉、躯体感觉等等(详见前文:外侧前额叶皮层的功能组织形式
https://mp.weixin.qq.com/s/m0Mq7F34PD8lmUrtR4v5iQ)。
与我们人类自身一样,大脑也是由简单到复杂逐渐进化而来的。大脑中有不少通路、环路被保留下来,并且随着进化的推进而被赋予新的功能。那么在感觉系统中普遍存在的拓扑组织形式是否也是进化的“遗迹”,是否也存在于大脑中的其他信息处理系统呢?基于对之前研究的梳理,我们提出了一个假说,认为介导强化学习的前额叶皮层-纹状体环路可能也遵守了一个类似的规则[1]:即存在腹侧与背侧两条系统参与不同的认知过程(详见前文:认知功能 = 大脑皮层?)。我们刚发表的这项工作,便是为了验证该假说而开展的。
一、行为学任务

该项研究使用了三臂老虎机(three-armed bandit)任务对猕猴进行行为训练和测试。每天实验开始前会向猴子展示三张新图片,这些图片随机对应20%,50% 和80%的奖励(苹果汁)概率。猴子会在这些图片中做出选择,以获取尽可能多的奖励(图 1A)。通常在做出十几次选择后,猴子都会弄明白哪张图片对应最高的奖励概率。这时候,三张图片其中的随机一张图片会被新的图片替换掉(图 1B)。猴子需要重新摸索新形成的图片组合中哪张对应更高的奖励概率。本实验使用了5只猴子。我们分别在他们的杏仁核(AMY)、腹侧纹状体(VS)、眶额皮层(OFC)和外侧前额叶皮层(LPFC)中采集了神经元信号。
二、纹状体环路编码强化学习中的目标价值和行动的执行
我们首先分析了各个脑区对所选择的图片的形状(即不同的图片)、空间位置(即在屏幕中的位置)和奖赏信息(即是否获得奖励)编码的情况。发现杏仁核、腹侧纹状体、眶额皮层对形状信息的编码更强(图 2A),特别是在注视期(猕猴看到图片之前)。这表明猕猴提前存储了将要选择的图片的信息。对图片所在空间位置的编码来看,外侧前额叶皮层的响应程度更强(图 2B)。图片所在的空间位置也是猕猴做出选择时眼睛扫视的方向,与行动的执行相关。而对于奖赏信息,各个脑区的编码强度比较类似(图 2C)。

本实验中猕猴的学习过程,其实就是探索各个选项以发现最大价值选项的过程。然而,动物在执行任务的过程中,各个选项在他们脑海中代表的价值是不断发生改变的。不同于感觉信息,各种选项在猕猴脑海里面的估值无法被直接测量。因此,我们使用部分可观察马尔可夫决策过程(POMDP)模型预测了猕猴在学习过程中对各个图片估值的动态变化情况。该模型基于动物的选择,预测三个价值相关的变量,分别是:即时期望值(IEV),即每张图片当前试次(trial)在猕猴脑内的估值;未来预期值(FEV),即猕猴估计的在接下来的试次能获得的价值;以及“新奇红利 (BONUS) ”,即图片的新奇程度对猕猴预估其价值时的加成程度。
我们发现:1) 在注视期,杏仁核、眶额皮层对即时期望值的编码情况更强(图 2D),反映学习过程中对目标价值的编码。2) 各个脑区在各个时间点对未来预期值都有一定强度的编码(图 2E),反映了对在学习中所处状态(state)的编码。3) 各脑区都有不少比例的神经元参与了对“新奇红利”的编码(图 2F),反映了动物对新奇事物偏好的表征。
以上的分析是基于单个神经元对变量的响应,并不能反映群体神经元的编码情况。因此,我们对记录到的群体神经元也进行了解码(decoding)分析,并得到了类似结果:猕猴杏仁核在注视期的神经活动的确能更好地预测即将选择的图片(图 3A);外侧前额叶皮层对空间位置的编码最强(图 3B);各个脑区对奖赏信息的编码则比较相似(图 3C)。

为了预测单位数量和无限数目神经元理论上可以编码的信息量,我们使用饱和函数(saturating function)拟合了解码结果(图 3D)。我们发现:
1) 杏仁核、腹侧纹状体、眶额皮层对目标价值相关信息(a priori reward)的编码强度大于外侧前额叶皮层(图 3E)。但是,当假设神经元数目足够多之后,这些脑区理论上能编码的信息的最大值基本一致(图 3F)。
2) 无论是在单位数量的神经元(图 3E)还是假定无限数量神经元的情况(图 3F),外侧前额叶皮层对空间位置信息的编码强度要远高于杏仁核、腹侧纹状体和眶额皮层。
3) 单位数量的杏仁核、腹侧纹状体神经元能编码更多的奖赏信息。但当不限制神经元的数目后,这些脑区理论上能编码的奖赏信息的最大值也基本一致(图 3F)。这部分结果与我们的单个神经元的分析结果,以及之前其他课题组的结果基本一致。
三、腹侧与背侧前额叶-纹状体环路及强化学习中的信息流
在之前发表的另一项研究中[2],我们发现在猕猴执行另一个强化学习任务时,形状信息和视觉空间信息会在外侧前额叶皮层内进行传递和转换(图 4,右上角插图)。当学习任务需要使用形状信息时,外侧前额叶皮层的腹侧和尾部(矩形4)的形状信息会转换为背侧和头部(矩形1-3)的空间信息( 详见前文:Nat Commun|形状和空间信息如何在前额叶皮层内传递?
https://mp.weixin.qq.com/s/uUecq3EJEs623WI0_dtarg)。

结合这两篇论文的结果,我们的研究提示了一个在强化学习过程中可能的信息传递模式(图 4):当猕猴看到选项前,腹侧前额叶-纹状体环路便已经提前编码了目标选项(以及对应的价值);而看到选项后,这些信息会被传递到背侧前额叶-纹状体环路,指导猕猴做出抉择;之后这些形状/价值相关的信息会从腹外侧前额叶皮层向背外侧前额叶皮层传递,并转换成空间位置信息,指导运动相关脑区选择对应位置的图片。
图片来源
封面图片:https://www.cuinsight.com/memberpass-privacy-technology-helps-credit-unions-build-member-trust.html
其他图片:论文原文
参考文献
1. Averbeck, B.B. and E.A. Murray, Hypothalamic Interactions with Large-Scale Neural Circuits Underlying Reinforcement Learning and Motivated Behavior. Trends Neurosci, 2020. 43(9): p. 681-694.
2. Tang, H., R. Bartolo, and B.B. Averbeck, Reward-related choices determine information timing and flow across macaque lateral prefrontal cortex. Nat Commun, 2021. 12(1): p. 894.
往期推荐
Nat Commun|形状和空间信息如何在前额叶皮层内传递?
https://mp.weixin.qq.com/s/uUecq3EJEs623WI0_dtarg
PNAS | 行为训练提升工作记忆容量的神经基础
https://mp.weixin.qq.com/s/ObN0o9WmGd00x9JVymVxyA
前额叶漫游指南
https://mp.weixin.qq.com/s/bvqAfHwWFuajR7Wv3hKD1w
外侧前额叶皮层的功能组织形式|前额叶漫游指南(二)
https://mp.weixin.qq.com/s/m0Mq7F34PD8lmUrtR4v5iQ
