水木视界iss. 22 | 人工智能揭开了守护我们DNA复杂蛋白质的面纱
前言
人工智能再一次做到了。
在解决了生物学中最大的谜团之一“预测蛋白质结构”之后,人工智能还破解了蛋白质如何连接成复合物的问题,并设想出了新的蛋白质结构,最终可能被转化为药物以调控对人类基本生物特征、健康和生命的影响。
然而,当面对巨大的蛋白质复合体时,人工智能却步履维艰。直到现在,在一项令人费解的技术中,一种新的算法破译了遗传的核心结构--这是由大约1000种蛋白质组成的巨大复合体,帮助将DNA指令传递给细胞的其他部分。该人工智能模型建立在深度学习(DeepMind)的AlphaFold模型和美国华盛顿大学大卫·贝克博士实验室的RoseTTAfold模型的基础上,这两个模型都已向公众发布,以供进一步实验。
我们的基因被安置在一个类似行星的结构中,被称为细胞核,起到保护的作用。细胞核是一个高度安全的城堡:只有特定的分子被允许进出,将DNA指令传递给外部世界。例如,传递给细胞中的蛋白质制造工厂,将基因指令转化为蛋白质。
调节这种交通的核心是核孔复合体,或称NPCs。它们就像极其复杂的吊桥,严格监控分子信使的进出。在生物学教科书中,NPC通常看起来像点缀在地球上的成千上万个卡通式的坑洞。在现实中,每个NPC是一个巨大的、复杂的、甜甜圈形状的建筑奇迹,也是我们身体中最大的蛋白质复合体之一。
为什么要关注NPC?就像处理一个巨大的拼图,解决NPC结构本身就很有意义。而且因为它们指挥着如何将DNA信息传递给细胞的其他部分,NPC对于基因治疗、mRNA类型的疫苗、CRISPR以及我们尚未想象到的其他潜在的基因治疗是至关重要的。
结构之谜
“核孔”听起来像是护肤视频中的东西。但对于细胞生物学家来说,它们是一个长达数十年的谜团。
美国国立卫生研究院(NIH)前院长弗朗西斯-柯林斯博士解释说道:
核孔对生命来说至关重要。
我们的DNA链蜷缩在一个蛋白质轴上。然后它们被封存在细胞核内,这使DNA免受潜在的有害化学物质、病毒或其他垃圾的侵害。想象一下用双层保鲜膜包裹甜甜圈--这就是核膜。现在在保鲜膜上打几个洞--那就是NPC。
这些看似简单的 "孔洞 "是细胞中遗传控制的关键守门员。我们的细胞通过将DNA代码转化为蛋白质来构建物理组织或控制基本的生物功能,譬如告诉细胞何时分裂或死亡,平衡新陈代谢,以及抵御病毒入侵者。
但DNA被封存在细胞核内。数以百计的蛋白质信使需要进入细胞核的密室内,将DNA指令转录为mRNA,并将其送回细胞的蛋白质制造工厂。每一次运行都必须经过NPCs--它们在一个结构中充当守卫和通道。
科学家们长期以来一直在寻求解码NPC结构,使用生物化学的“魔法”来篡改其正常功能,或用X射线来扫描其结晶结构。这项工作是十分艰苦的。从这些数据中,科学家们发现有两种主要类型的蛋白质组成安全门。
第一种类型建立了门控支架。这些蛋白质被称为NUPs(核蛋白),以标签形式排列在隧道内。第二种类型像活性干墙泥。这些蛋白质要灵活得多,沿着支架蛋白涂抹,并延伸到中央通道,在那里它们可以抓住货物,帮助它向前移动。
由近1000种蛋白质组成的NPC结构形成了大约30个不同的 "码头",由于它们是动态变化的,所以很难攻克。例如,多种蛋白质作为相互连接的铰链,可以改变孔隙的配置或大小。
马克斯-普朗克生物物理研究所的Gerhard Hummer博士和Martin Beck博士以及欧洲分子生物学实验室的Jan Kosinski博士领导的研究小组解释道:
【由于整个结构 “紧密地包裹”着核膜,NPCs不能被孤立地研究。到目前为止,即使采用最先进的生化手段,科学家也只解决了NPC结构的46%。】
“ 这就像你拆解和重新组装一个电子设备时一样。总会留下一些螺丝,而你就是不知道它们应该在哪里。但多亏了人工智能,我们终于设法装好了大部分,现在,我们清楚地知道它们在哪里,它们做什么,以及如何做。” Kosinski说到。
进入人工智能
该团队首先开发并改进了一种用于分析NPC的流行方法,即冷冻ET分析。该方法在2015年声名鹊起,当时它将细胞结构解析到了近原子尺度。该团队解释说,解决NPC结构的问题之一是缺乏以前数据集的分辨率。在这里,他们收集了一个比之前尝试的 "大约五倍大的数据集",并使用一种新的计算方法来分析数据。
通过观察新绘制的地图,研究小组可以区分核膜--或DNA "包裹物"——当它处于收缩状态与更放松的状态时的区别。深入研究后,研究小组利用AlphaFold和RoseTTAfold来预测一套全面的NPC蛋白质模型。这对组合工作的很顺利--该分析可以对大多数核蛋白进行建模,且具有较高的可信度,并与来自传统显微镜分析方法的数据相匹配。
然后,困难的部分来了。就像船厂的码头一样,NPCs与蛋白质的运输方式高度相关,而这些交通方式往往很难在三维中建模。利用他们的模型,该团队将蛋白质链接器的 "锚点 "映射到NPC主通道上。进一步的建模为链接器如何连接建立了一个 "谷歌地图"。就像一个组织良好的船厂,每一个都有助于维护NPC的结构。
破解遗传的核心
使用人工智能解决蛋白质结构问题被誉为十年来的突破性进展。这项研究是首次展示该算法在混乱、复杂、真实环境中的强大功能的研究之一。
贝克说:“ 这项工作体现了在未来,结构生物学将如何拥抱细胞生物学,为在细胞不同部分执行不同功能的越来越大的分子组合创建原子模型。”
这场革命已经在路上了。在同一期杂志中,由哈佛大学医学院的吴昊博士领导的另一个团队将显微镜成像与AlphaFold相结合,利用非洲爪蛙(Xenopus laevis)的卵解决了NPC的部分结构,非洲爪蛙是生化研究中的宠儿。
但人工智能还不能解决所有问题。正如没有参与研究的麻省理工学院的托马斯-施瓦茨博士指出的那样,NPC是改变其结构的生物。例如,当它们愉快地依偎在核膜内时,它们的通道往往更宽,而当它们被拉出来放在显微镜下研究时则不然。换句话说,蛋白质复合体是很难破译和控制的。但人工智能是站在我们这边的。
麻省理工学院的托马斯-施瓦茨博士谈道:
我们现在可以考虑建立一个完整的NPC动态模型,以原子细节模拟核运输。随着基于人工智能的蛋白质预测工作的开展,更令人兴奋的是接下来要做的事情。
总结
雄激素受体(以下简称AR)是一种细胞核受体,支配着前列腺发育和维持男性表型所需的基因表达程序。晚期前列腺癌会伴随AR过度激活和转录组扩增,一部分原因是由于的AR过表达以及与肿瘤蛋白辅助因子的相互作用引起的。AR是如何与辅助因子相互作用并结合DNA的机制一直是长期未解决的重大问题,利用单颗粒冷冻电镜技术,我们成功获得了AR与DNA结合的三种不同构象,结构显示,AR形成非专性二聚体,这一类类固醇受体利用包埋的二聚体界面来促进合作DNA结合。
我们发现了在雄激素不敏感综合征中受到损害的全新别构表面,并通过雄激素受体的肿瘤蛋白辅助因子ERG和DNA结合模体进行验证。最后,我们的实验证据表明,这种可塑的二聚体界面可能是以牺牲DNA结合为代价来实现反激活的。我们的工作强调了雄激素受体协同互作的微调影响了生长和疾病的结果。
相关文献:
In Its Greatest Biology Feat Yet, AI Unlocks the Complex Proteins Guarding Our DNA
构建核孔复合体

2016年(左)和2022年(右)核孔复合体的已知结构比较。
显示了横截面(外部图像)和自上而下的视图(中心)
新解析的部分用橙色和黄色描述。
ILLUSTRATION: V. ALTOUNIAN/SCIENCE;
PDB DATA: ANDRÉ HOELZ AND MARTIN BECK
核孔复合体(NPCs),每一个都由约1000个蛋白亚单位组成,是嵌入核膜的通道,调节真核细胞的细胞核和细胞质之间的大分子运输。除了协调运输,NPC还组织基本的细胞核和细胞质过程,如转录、mRNA成熟、剪接体和核糖体组装。这些不同的作用使NPC成为疾病相关的突变和宿主-病原体相互作用的热点。
在低分辨率显示完整核孔的结构和高分辨率显示核孔组件结构的基础上,核孔已逐渐成为焦点。然而,利用这些信息来正确地组装30多种不同蛋白质的副本并建立一个高分辨率的三维结构一直是一个艰巨的挑战。在这里,《Science》杂志发表了三篇论文,将这个巨大的拼图拼凑在一起,揭示了庞大的人类NPC的近乎原子学的画面。这些研究建立在几十年来生化重组、X射线晶体学、质谱学、诱变和细胞生物学的艰苦工作之上;使用了大幅改进的整个人类NPC的低温电子断层扫描重建;并利用人工智能来准确模拟各组成部分。还有两项研究提高了单颗粒冷冻电镜的分辨率,使脊椎动物NPC中的二级结构元素和残基级细节得以可视化。
所揭示的分子装配丰富了我们对脊椎动物和人类NPC构造的理解——从核心支架到将各部分固定在一起的连接蛋白,以及从核膜锚定到中央运输通道上方的细胞质丝。
这里展示的工作代表了实验结构生物学的胜利,在我们寻求了解大分子集合体的构造和设计原理中强突出了正在进行的分辨率革命的作用。
"Building the nuclear pore complex" Vol 376, Issue 6598; pp. 1172-1173
水木未来·视界丨iss. 22
www.shuimubio.com

