【PDB-101】2020年5月 月度分子:剪接体【搬运·翻译】
——剪接体“剪切、粘贴”信使RNA的过程正在冷冻电镜之下逐步揭晓

生物学中无易事。遗传信息流动的基本机制最早是通过研究细菌得以阐明的,大致就是DNA被转录成信使RNA(mRNA),mRNA再被翻译成蛋白质。然而,更复杂的生物在这方面的事儿比细菌多得多。我们DNA编码的基因本身差不多要比拿去翻译的mRNA长个四到十倍。仔细观察我们的基因组,你会发现,绝大多数基因中编码蛋白质的部分都割裂成了一个一个的片段,叫做“外显子”(exon)的,被叫做“内含子”(intron)的非编码序列隔开。不同基因中内含子的数目可以有很大变化。比方说,我们体内编码血红蛋白的基因被内含子分隔成3段(ATP注:指有3个外显子,下一句同理),而编码肌联蛋白这个庞然大物的基因则被内含子分隔成365段(ATP注:人的TTN基因只有364个外显子,原文多了一个;有点尴尬的是,在上面超链接的文章最后,我自己也把TTN的外显子数搞错了,少了一个……)。这种模块化的结构有个棒极了的好处,那就是细胞可以用不一样的方式把一个基因的片段拼接在一起,这样只用一段DNA序列也能造出多种多样的蛋白质。
剪接反应
剪接体(spliceosome)切开基因转录产生的长长的前体mRNA(pre-mRNA),而后把某些片段重连,产生的较小mRNA分子方能成为蛋白质合成的模板。它们是复杂的分子机器,含有很多部件,其中有的是蛋白质,还有的是小巧的RNA。整个复合体的装配分步进行,每步剪接反应都既有亚基加入又有亚基离开。最开始的几步中,剪接体的亚基们识别一对剪接位点(ATP注:指内含子两侧的剪接位点),并使它们彼此接近;然后,其中一个剪接位点断开,断端(ATP注:即内含子的5'端)与内含子当中一个特别的腺苷酸连在一起,形成一个环状结构;最后,另一个剪接位点也断开,使两个外显子得以相连,同时内含子得以释放。
动态结构
人们正在使用冷冻电镜观察剪接的各个步骤。不过,剪接体是个极其“活泼好动”的分子机器,因而得到的结构只能包含整个复合体当中称得上稳定的部分。所以说啊,在探究这些结构的时候,你得随时做好把那些太过好动、没法确定结构的部分脑补出来的心理准备。上边图中的剪接体结构来自PDB条目3jb9,图中的剪接体刚刚完成剪接反应,连在一起的外显子已经离它而去了,而环状的内含子“套索”还在它身上挂着。现在人们已经做出了很多不同剪接步骤当中的剪接体结构,其中也包括结构更加复杂的人类剪接体,使得我们对于剪接过程在结构方面的理解不断扩充丰富。本文并没有足够的空间带你领略所有这些结构,不过你可以试试在RCSB PDB主站搜索“spliceosome”,去自行探索一番。
RNA的作用

在剪接体工作时,很大一部分细节任务都是由它里面那些小小的RNA完成的。上图中的结构恰巧捕捉到了剪接过程最开始的一瞬间,其时剪接体正在识别剪接位点中的一个(PDB条目6n7p)。剪接体的RNA与pre-mRNA发生碱基配对,相当于在“阅读”剪接位点的序列。不久,其他蛋白质和RNA组成的亚基就会加入,以这个复合体为核心装配为一整个剪接体。除此之外,剪切、粘贴mRNA的化学反应也是剪接体中的RNA催化的,用到两个镁离子作辅因子。令人惊讶的是,某些所谓的自剪接RNA(self-splicing RNA)能通过极为类似的反应自己剪接自己,而完全不需要剪接体的半点儿帮助!
与癌症的联系

相当多疾病都跟mRNA剪接过程的故障有关。举个例子,在某些癌症的发展中起到关键作用的是信号蛋白Rac1的一位“分身”,后者是以可变剪接(alternative splicing)造出的前者的“不同版本”。跟Ras蛋白一样,Rac1的作用像似一个分子开关,GTP使它“打开”,GDP使它“关闭”,就这样传递着与细胞生长、增殖的调控有关的信号。通常的Rac1由六个外显子编码的序列组成(来自PDB条目1mh1),而它那位“分身”则比它多出一个外显子编码的序列(来自PDB条目1ryf),导致的后果是这家伙比通常的蛋白更容易处于“打开”的状态。当这位名叫Rac1b的“分身”在癌细胞被过表达时,它就会为虎傅翼,帮着癌细胞脱离正常的控制、拼命扩增。
探索结构:剪接体对内含子的识别

这张剪接体活性位点的特写图展示了内含子“套索”(黄色)的末端是如何被两条剪接体中的小RNA分子(梅红色与红色)把持住的(ATP碎碎念:莫名感觉这RNA姿势挺可爱的)。内含子的其中一个末端绕了回来,与它自己身上的2'羟基结合(箭头所示)。参与了之前反应的催化辅因子镁离子就在旁边,就是那两个梅红色的圆球。如果想要探索这一结构的细节,请去原网页查看可互动的JSmol文件。
更多话题
你可以使用像GenBank这样的资源查看特定基因当中外显子和内含子的排布,譬如编码肌联蛋白的基因(网址:https://www.ncbi.nlm.nih.gov/gene/7273)。对于已经收录在PDB当中的蛋白来说,你可以用Protein Feature View了解它们外显子的结构,比方说由三个外显子编码的α-血红蛋白(ATP注:这个页面已经在2020年12月永久关闭了)。

文中提到了可变剪接,我得说,这玩意儿不是一般的有趣。可变剪接具体是怎么变的我就不细说了,不过我建议你去查一查,因为细胞在这方面真的是脑洞大开。果蝇有个名叫Dscam的基因把可变剪接玩成了绝活,通过24个外显子中4个可变外显子的排列组合,它理论上能编码38016种不同的蛋白!这类离奇的暂且不谈,在对我而言比较亲近的地方——也就是我最喜欢的RyR2所处的心肌之中(当然了,RyR2的分布其实很广,这样说是因为我主要关注心肌中的RyR2),可变剪接的例子也随处可见。离RyR2远一点的有文中出现过的肌联蛋白:我们经常听到说肌联蛋白是我们体内最大的蛋白,不过由于可变剪接,肌联蛋白也分好多不同的亚型,其中长者达三万多氨基酸(在骨骼肌),短者只有五千多氨基酸(在心肌;不过其实它作为单个蛋白算很大了,人家RyR2一个亚基还不到五千氨基酸……),中庸者则有两万多氨基酸的(也在心肌)。至于离RyR2近的例子,我想举junctin。它是肌质网膜上的单次跨膜蛋白,也是内钙稳态的调控因子。编码junctin的基因名字叫ASPH,看起来跟它八竿子打不着。这基因名的全称是“天冬氨酸β-羟化酶”,好像跟压根不是酶的junctin更没关系了。不过你别说,现实就这么有意思:junctin确实是从这个基因转录再翻译过来的,只不过它的mRNA被剪接掉了编码催化亚基的那部分。实际上,ASPH基因的产物中带酶活性和不带酶活性的都各有好几种,尽管在心肌里最引人注目的大概就是那个可以结合肌质网内钙缓冲蛋白Casq2并能调控RyR2的家伙。除了玩可变剪接的花样外,ASPH基因有两个不同的启动子,这也是一个基因产生多种转录产物的方式之一。
好了,扯淡就到此结束吧=w=下一篇应该会是光合超复合体~
因技术与能力限制,请前往原网页以查看原文中所有超链接以及可互动的JSmol文件。
强烈推荐去PDB-101官网查看原文,顺便探索一下这个干货满满的科普平台。
作者:David S. Goodsell
原文网址:https://pdb101.rcsb.org/motm/245
PDB-101首页:https://pdb101.rcsb.org
RCSB PDB首页:https://www.rcsb.org
封面来源:Bai, R., Wan, R., Wang, L., Xu, K., Zhang, Q., Lei, J., and Shi, Y. Structure of the activated human minor spliceosome. Science 371, eabg0879 (2021). DOI: 10.1126/science.abg0879