【原创】基因测序的故事
前基因测序时代
基因是具有遗传效应的DNA片段。 ——《高中生物必修二》
第一章 豌豆花园里的探险:基因的发现
自古以来,人们就认识到,猫只能生出猫,狗只能生出狗,”龙生龙,凤生凤,老鼠的儿子会打洞”。进入封建时代以来,社会的关系也是根据血缘而构建的。刘玄德乃是中山靖王之后,达延汗乃是成吉思汗之后,而北欧瑞典人,连名字里都要加上一个”松”字来表达谁是谁的后代。毫无疑问,全世界的古人都对遗传现象视之甚重。
在古代欧洲,人们认为男人的精子里面坐着一个微缩小人,他具备了一个成人一切的特征,只是十分微小。尽管随着科学的发展,人们不再相信许许多多虚妄的传说,然而对于遗传的真正机制,科学家依然所知寥寥。1831年12月,查尔斯·达尔文乘上一艘名叫”贝格尔号”的小风帆舰驶离英格兰的冬港,为人类带来了进化论的曙光。达尔文进化论认为,生物有各种各样不同的性状,自然选择的压力定向改变着各种性状在种群中的比例,从而驱动着鱼儿登上陆地,恐龙飞上天空,猿猴拿起手机。然而,尽管达尔文因为进化论获得了巨大的声誉和成功,他自己的内心深处却比任何其他人都清楚进化论的致命缺陷:他没有解释各种各样不同的性状究竟是从何而来,又是如何传给下一代的。达尔文在冥思苦想之中陷入了长久的精神痛苦。最终,达尔文认为,一种叫做泛子的微粒遍布于生物体各处的体细胞中,奔走着收集生物各处的信息。最终,满载信息的泛子会汇聚在生物的精子或者卵细胞处,告诉生殖细胞,这是一个怎样的生物,从而让生殖细胞把信息传给下一代。他把这种理论称为”泛生论”。达尔文在提出泛生论后总算稍加释怀地说道:“虽然这个假说还不尽如人意,但是对我而言已经如释重负。”
然而,弗莱明·詹金却一针见血地指出:如果生殖细胞是通过从身体各处平等地收集来的泛子决定下一代性状的,那么无论某个突变体具有多么特别或者优良的性状,过不了几代,都会淹没在大多数基因型的茫茫大海之中了。再怎么适应环境的基因型也不能被选择,那么进化论也就成了空中楼阁。达尔文读到詹金的批评后,不得不承认詹金说的是对的,然后再度陷入了精神痛苦之中,直到撒手人寰。
达尔文对于遗传机制的错误见解被我国的高中生物课本称作”融合遗传”,我们现在知道,这个理论错得离谱。如果不能解释性状是如何遗传的,就不能解释优秀的基因型如何在种群中扩张其频率,整座进化论的大厦也将不复存在。然而,实际上,达尔文和自己的救赎擦肩而过。进化论炸响一声惊雷后,每年都会有许许多多形形色色的人给这位科学泰斗写信,多到达尔文自己肯定看不完。而在这些被达尔文忽略的许许多多读者来信中,有一封来自奥地利布尔诺的一位普普通通的神父:孟德尔。
孟德尔是一位热爱大自然的天主教神父。他为人随和、善良,和布尔诺当地的农民群众打成一片。布尔诺的农民,像世界上其他地方的农民一样,祖祖辈辈都在有意识无意识地进行作物育种的工作。孟德尔在这里得到了通往基因奥秘至关重要的钥匙:各种各样纯合的豌豆种子。之后就是收录在高中生物必修二课本中,我们非常熟悉的故事了:孟德尔通过3:1和9:3:3:1的比例发现了分离定律和自由组合定律。孟德尔指出,生物的性状,对应着一种神秘的,微小的遗传物质。这种物质既不会融合,也不会消灭,成对存在。生殖时,成对的遗传物质彼此分离,不成对的遗传物质之间自由组合。
孟德尔拿着小小的画刷,弯着佝偻的腰肢,在修道院后面的菜园子里,对着2.8万株植物的小花儿一株一株地授粉,他总共收集了超过30万粒种子,工作了整整十年,最终凝结出了一部44页的伟大论文。孟德尔欣喜若狂地把开启遗传学的伟大发现寄给了著名植物学家内格里,然而内格里对于这个偏远小镇的贫穷神父的著作十分不屑,甚至没有把孟德尔的巨作拿去给任何同事做进一步的评议。面对孟德尔一再热情的邀约,正在研究山柳菊的内格里就搪塞他,说,要是能用山柳菊做出同样的结果,自己再考虑考虑采纳孟德尔的理论。事实证明,选择山柳菊展开遗传学研究简直是一场灾难。这种植物有时有性生殖,有时无性生殖。在它有性生殖时,它给与孟德尔些微希望的光亮,当孟德尔心中升起希冀时,无性生殖又把这希望之火无情拍灭。1867年到1873年,孟德尔耗费数年的时间死磕这种令人绝望的植物,结果自然一无所获,豌豆中昭然若揭的遗传规律并没有复现。1873年,孟德尔当选为布尔诺修道院院长。繁杂的行政工作占据了孟德尔的身心,最终,这位遗传学之父同那位进化论之父一样,带着遗憾走到了人生的尽头。
1900年,内格里的学生贝特森在一次坐火车时偶然阅读了孟德尔的巨作(内格里根本没有告诉他孟德尔给自己写过信)。这位植物学家一下就被孟德尔的敏锐深深震撼了。他意识到,孟德尔的巨作是通往整个现代遗传学的钥匙,而它竟然被整个生物学界忽视了整整四十年。之后,贝特森自诩为”孟德尔的斗犬”,四处宣扬孟德尔的遗传学说。然而,缺乏一个响亮简洁的名号称呼孟德尔模糊提到的遗传物质为现代遗传学的发展带来了巨大的阻碍。于是,1905年,贝特森根据希腊语genno(诞生)把这种既不消失也不融合的遗传粒子称为Gene,也即基因。
【注意!!!这篇文章是我去年上半年写的,当时我还没有看中国旅德免疫生物学家商周所写的《孟德尔传》,我在本文中提到内格里对孟德尔不好,是世间流行的错误看法。商周老师在阅读了内格里和孟德尔通信的史料原文以后指出内格里其实对孟德尔不错。在此勘误,感兴趣的朋友可以买一本《孟德尔传》来看。】
第二章 抖擞精神:基因的化学本质
随着生物化学的发展,人类从细胞当中分离出了各种各样的蛋白质。这些蛋白质,由氨基酸序列构成,20种氨基酸就像是20个字母,连缀成一篇篇蛋白质的书本。由于蛋白质功能极多,在细胞中量极大,存在序列且序列多样,生物学家自然而然地认为,所谓的”基因”,实际上就蕴含在蛋白质的氨基酸序列之中。没有人专门设计过实验来证明蛋白质就是遗传物质,却也没有人怀疑过这一点,直到一个无心之举。
1918年,第一次世界大战如火如荼,几十万人密密麻麻地堆在战场上,堑壕和铁丝网把绵延不断的大军分割在一个个人员密集的小块里,无人处理的尸体和排泄物积压在战场上,自然成为了疾病的温床。于是,伴随着战争的物流通道和运兵船,西班牙大流感席卷全球,夺走了2000万人的生命。为了处理西班牙大流感的继发性肺炎链球菌肺炎,英国政府勒令英国卫生部医疗官格里菲斯进行肺炎链球菌致病性的研究。格里菲斯发现,肺炎链球菌具有S型和R型两种,其中只有S型会致病。吊诡的是,即使杀死S型菌,在把它们与R型菌混合在一起之后,R型菌中的一些也会转化成S型菌,并获得S型菌的致病能力。由于格里菲斯生性腼腆,他并没有对这个能够动摇遗传学基础的爆炸性发现大加宣扬,而是只是静悄悄地将其发表在一篇很不知名的小期刊上。
直到1933年,美国生物学家艾弗里才读到格里菲斯十几年前发表的文章。艾弗里一开始并不相信一些细胞碎片就能传递遗传信息,但是,在复现了格里菲斯的实验后,他立即认识到,这是一个确定”基因”真面目的良机。艾弗里像当时的其他生物学家一样,认为蛋白质是遗传信息的载体。于是,他用氯仿来洗脱蛋白质,用各种蛋白酶来消化蛋白质,加热来使蛋白质变性,加入酸性物质使蛋白质凝固。可是,在尝试了各种去除蛋白质的手段后,剩余的S型菌残渣依然能够导致R型菌的转化。然而,在S型菌中加入DNA酶以后,R型菌的转化现象竟然彻底消失了。当时,以DNA和RNA为代表的核酸刚刚发现不久。人们除了核酸具有A,T,C,G,U五种碱基以外,对其结构与功能一无所知。当时的生物学家想当然地认为,在DNA分子上,核苷酸碱基一定是以ATCGATCG循环往复的呆板方式排列的,因此称DNA分子为”愚蠢的分子”。然而,艾弗里却发现,”愚蠢的”DNA分子,其实有可能是基因真正的载体。
实际上,早在1902年,美国生物学家萨顿就在研究蝗虫的精子和卵子的形成时发现,蝗虫生殖细胞的染色体,和1900年贝特森宣讲的孟德尔学说中所谓的”遗传粒子”,在行为上具有高度一致性。因此萨顿就大胆假设:基因在染色体上。1907年,贝特森像摩尔根宣扬了孟德尔学说。摩尔根对孟德尔学说不屑一顾,因为他知道在果蝇当中有很多时候不同的性状是有连锁关系的,而非孟德尔所称的自由组合。可是,当摩尔根按照萨顿的假设假定基因在染色体上之后,这种连锁关系可以轻而易举地得以解释。当时人们已经知道性别是由性染色体的不同决定的。如果雄性果蝇的X染色体上携带着隐性基因,那么它子一代的雌性个体所生的子二代将会出现性状随着性别而分化的现象。如果能够观察到这一点,就能反过来证明基因在染色体上。摩尔根为了这个隐性突变苦苦追寻了数年之久。1910年,一只千载难逢的白眼雄果蝇突变个体终于出现了。白眼相对于果蝇惯常的红眼来说是隐性性状,而当时已经基本能够推测白眼基因可能位于果蝇的性染色体上。摩尔根赶紧饲养,可是这只果蝇却很虚弱,无论如何也完不成交配。它一天一天地大限将至,摩尔根只能眼睁睁看着重大发现从自己眼前溜走。好在这只白眼雄果蝇临死之前抖擞精神,把珍贵的隐性突变传播了下去,结果完全符合摩尔根的预期。
1943年,艾弗里面对着自己手头的实验结果,不禁再次想起了摩尔根在《基因论》中振聋发聩的呼告:基因在染色体上。染色体固然也有蛋白质,但是蛋白质在细胞当中无处不在。而染色体,却是线粒体与叶绿体之外,DNA唯一富集的场所。所以,艾弗里指出,DNA在染色体上,基因在DNA上。后来,赫尔希和蔡斯又用病毒更加精确地复刻了肺炎链球菌转化实验。至此,时隔41年,萨顿的大胆假设终于被证明为事实;时隔近百年,孟德尔发现的基因终于被牢牢地与坚实可感的物质基础联系在了一起。
可是,DNA究竟有何特殊之处,使得它能够承载传递遗传信息的大任呢?以及,DNA分子如何复制,遗传信息是如何在DNA上编码的呢?DNA上镌刻的遗传信息,是如何变为大千世界中形形色色的生物体的呢?
二战后,伦敦国王学院的威尔金斯尝试用X射线衍射技术破戒DNA结构。物理学家克里克加入了他的行列,很快,年轻的生物学家沃森也被吸引入了探寻DNA分子结构的队伍之中。然而,DNA分子在不断运动之中,导致很难拍出清晰可感的图像。三人反复尝试,都不得法。
1950年末,伦敦国王学院招募了一位新的晶体学家,她就是罗莎琳德·富兰克林。富兰克林是一个富裕的银行家的女儿,雄心勃勃且聪慧过人。她也想要攻克DNA结构的秘密,于是和威尔金斯三人组一起工作。富兰克林是一个难得一遇的晶体学家,她能够拍出的X射线衍射照片,其精确性三人组远不能及。可是,脾气硬朗的富兰克林很看不起三人组的做派,在她认为三人组十分愚蠢的时候,她从来不吝指责。有一次,沃森和克里克用钢架搭建了一个模型,请富兰克林来看。然而,沃森和克里克犯了一个巨大的错误:他们把磷酸骨架放到了中间,而把碱基暴露在外侧。富兰克林早就指出过,磷酸骨架都带负电荷,他们放在一起会分崩离析,因此必然位于DNA分子结构的外侧。因此,骨鲠的富兰克林立马就指出了这个错误,并且把沃森和克里克奚落了一顿。一来二去,富兰克林和三人组的矛盾越来越大,以至于校方不得不把他们的实验室分开。富兰克林后来继续拍摄了更多越来越清晰的X射线衍射照片。
1952年,富兰克林终于拍摄出了前所未有的极其清晰的X射线衍射照片:51号衍射照片。结果威尔金斯竟然在富兰克林不知情的情况下把这张至关重要的照片从抽屉中抽走,私自交给了沃森和克里克。沃森和克里克立马就看出来了DNA分子具有螺旋结构,排除了不稳定的三螺旋后,他们认为DNA分子具有双螺旋结构。可是,富兰克林告诉过他们,DNA分子的磷酸骨架在外,碱基对在内。可是,犬牙呲互的碱基长短不一,他们是如何稳定地保持在DNA分子内部的呢?不久,奥地利化学家查哥夫发现了一个至关重要的结论:在DNA的碱基当中,嘌呤与嘧啶总是总量相等。这意味着AT和CG碱基之间很可能存在对应关系。这样配对以后,各种碱基就能长短对齐,中间依靠氢键紧密连接。至此,关于DNA分子结构的最后阴云已然散去。1953年,沃森和克里克发表了揭示DNA结构的论文,它无可置辩地确认了DNA分子的双螺旋结构,翻开了基因研究的新纪元。最终,沃森、克里克和威尔金斯因此获得诺贝尔奖,而可怜的富兰克林却因为拍摄了太多X射线衍射照片,接受了太多辐射,在37岁时因卵巢癌英年早逝。
沃森和克里克后来又揭示了DNA分子的半保留复制机制:在DNA复制时,DNA的两条链解开,在各种酶的作用下,各自按照碱基互补配对原理合成一条子链。随后的研究又发现,DNA解开的双链可以作为RNA复制的模板,由DNA为模板合成RNA分子的过程称为转录。转录出的RNA分子又可以在核糖体的作用下通过三联密码子来对应氨基酸,从而合成蛋白质,这个过程称为翻译。至此,遗传信息从DNA流动到RNA,再流动到蛋白质的路径被全部解明,克里克称之为”中心法则”,以昭示它在生物界无可动摇的中心地位。后来,随着逆转录病毒和朊病毒的发现,中心法则又增加了信息从RNA流动到DNA,以及从蛋白质流动到蛋白质的通路。
渐渐地,人们发现,并不是DNA分子上哪里都能作为合成蛋白质的模板。有的地方可以转录出RNA,却不能翻译出蛋白质。还有的地方,甚至压根不能转录出RNA。能翻译出蛋白质的DNA片段,显然作为基因承载着各种各样的性状的实现。只能转录出RNA的DNA片段,虽然不能直接作为蛋白质作用,但是RNA本身也可以作为tRNA、rRNA甚至酶来调控各种各样的生命活动,所以这样的DNA也是基因,只不过是非编码的基因片段。因为孟德尔当初定义”遗传因子”的时候就是以指导生物产生性状为基准的,所以生物学家把能够转录的,或者说,具有遗传效应的DNA片段都称为基因,而把没有生物学功能的DNA片段排除在基因以及自然选择之外。
至此,历经百年,我们终于可以满怀信心、掷地有声地说出高中生物必修二里的那句定义:
基因是具有遗传效应的DNA片段。
第二部分 基因测序时代
人们通常认为,科学进展有赖于新技术,新发现与新设想的实现。 ——悉尼·布伦纳
第一章 沼泽旁边的梦:桑格测序法
仅仅是知道了基因在哪里,DNA怎么复制,他们怎么受到调控,并不能解决我们真正关心的问题,那些真正关乎实际的问题:ATCG构成的核苷酸文本,究竟表达了什么丰富多彩的意思?他们怎么指导生物体的形成,又会指导生物体发生哪些生理活动?如果这个文段损坏了,对生物有什么影响?我们能按照自己的意愿编辑基因文本,从而定向改变生物性状吗?
要了解基因的作用,20世纪60年代的遗传学家手头唯一的手段就是通过研究变异个体。长了两个胸结的果蝇,腿长在触角的部位的果蝇,各种稀奇古怪的肢体移位,最终为遗传学家开启了认知Hox基因的大门。然而,天然的情况下突变十分稀少,不能供给研究所需。遗传学家从二十世纪初的摩尔根时代开始就开始利用各种物理、化学的方式诱发变异。比如使用x射线进行长时间照射,或者使用各种影响复制甚至致癌的化学品诱导果蝇突变,然而,诱变法一方面成功率不高,另一方面没法控制变异方向,更没法精确解读自己感兴趣的基因。最重要的是,这一招不能用到人身上。已有的方法严重制约了遗传学家满溢的求知欲,连在原子弹轰击下的广岛和长崎幸存的1.2万名日本人都被作为了诱变的研究对象,即使这样也不能满足对于人类基因了解的需要。
我们分离了一个DNA分子,不是只想知道其上偶发几个变异位点的残片断简,而是想要能够阅读从头到尾的DNA序列。也许我们还不能理解这些序列的含义,但是,没有序列,就没有一切。
一切是从英国剑桥大学一所位于沼泽附近的,半地下式的”简陋”实验室开始的。总领这一方小天地的领主,名叫弗雷德里克·桑格。20世纪50年代伊始,世界大战的暗影刚刚散去,连DNA结构都尚未被沃森和克里克揭示的时候,他就已经在这里创造了一套完整的蛋白质测序技术了。桑格首先攻克的,是一种对糖尿病患者至关重要的激素蛋白:胰岛素。随着人类历史逐渐从近代过渡到现代,现代化的生活方式带来了越来越多的糖尿病病例。然而,直到1921年提取出胰岛素之前,这种疾病都是不治之症。胰岛素的提取并没有成为糖尿病患者的福音,因为它太昂贵了。激素的活动本来就具有高效性,很少的含量就能发挥作用。更不用提提纯过程中还要有损耗。结果是,宰杀几十条狗,十几头猪或者牛,把它们的胰腺全都割下来磨碎了,最后也只能提取出几克胰岛素来。这样的”药品”对人类社会毫无意义。人类必须掌握人工合成胰岛素的方法。为了做到这一点,首先就必须知道胰岛素蛋白质的氨基酸序列。
桑格创造性地采用一系列降解的方式来为胰岛素测序。他先运用生物化学的手段,把胰岛素末端的一个氨基酸切下来,溶解在溶剂里,然后鉴定这个氨基酸(对单个氨基酸的化学鉴定已经非常成熟),接着重复这个过程,直到抵达蛋白质的另一端。当胰岛素被彻降解的时候,它的氨基酸序列也就已经探明了。1958年,以极其惊人的短审批时间,桑格就获得了诺贝尔生理学与医学奖。
创造蛋白质测序法以后,1955年到1962年,桑格继续解明了好几种重要蛋白质的序列。毫无疑问,社会对桑格的贡献进行了热烈的追捧。然而,桑格并非是一个胸无大志的凡俗之辈。他感到,自己这些年的工作,实际上不过是把胰岛素测序重复了一遍又一遍罢了。桑格后来回忆称,自己在这些年里”毫无建树”。
1962年,桑格的实验室搬迁到了剑桥大学医学委员会,和克里克、佩鲁茨和悉尼·布伦纳的实验室相邻。这些科学家,尤其是揭示DNA结构和提出中心法则的克里克,全都是热情的DNA迷。结果是,自然而然地,20世纪六十年代中期,全世界生物大分子测序方面的泰斗:弗雷德里克·桑格,正式向DNA测序的桂冠发起了进军。
桑格自然而然地把蛋白质测序的方法应用到了DNA身上。他试图一个一个降解DNA的核苷酸,然而,由于缺乏合适的酶,桑格无法每一次都仅仅把最末端的一个核苷酸从DNA链上切除。桑格花费了数年时间改进降解流程,然而最终,整个DNA分子被各种各样的酶切的七零八落,以至于根本没法判断哪一段在原来链上的什么位置。
1971年冬天,桑格尝试逆向考虑这个问题。DNA分子的降解是如此乱暴,和DNA分子秩序井然的合成反应形成了鲜明的对比。如果,我们不是利用降解,而是利用合成呢?DNA分子的合成也是一个核苷酸一个核苷酸加上去的。如果我们能够在每加一个核苷酸的时候得知DNA加了什么核苷酸上去,那么等整个合成反应结束的时候,我们不就得到了DNA的整个序列了吗?我们有很多方法实现这一点,比如说,给我们提供的核苷酸加上荧光标记,或者放射性标记,又或者是比重不同的同位素。可是,我们没法暂停DNA分子的合成进程。如果任由DNA分子一股脑儿地合成完毕,我们只能得到一条满是无法辨认的标记的链。如果我们加进去的这个核苷酸,可以使DNA分子的合成暂停就好了...等等,确实可以这么做!构筑DNA的核苷酸,实际上是脱氧核糖核苷酸,和构成RNA的核糖核苷酸比少了一个羟基。要想形成磷酸二酯键,就需要核苷酸的五碳糖上有羟基。核糖核苷酸的五碳糖上有两个羟基,对于脱氧核糖核苷酸来说,尽管少了一个,依然还有一个羟基可以用来形成磷酸二酯键,所以DNA链的构建还能正常进行。如果把这个剩下的羟基也用化学方法脱去呢?那么磷酸二酯键不能构建,DNA合成也就会被暂停了。
桑格赶紧构建了双脱氧的核糖核苷酸。如果给DNA合成反应提供正常的ATP,TTP,CTP和GTP,同时再在里面加入适当比例的ddATP,用待测的DNA分子作为模板扩增许多次,最终得到的许多子链当中就会有在各个A碱基处停止扩增的短链,他们长短不一,且末端碱基全部已知:腺嘌呤(A)。我们可以利用业已成熟的电泳法把这些长短不一的DNA子链分离开:先给各个DNA短链加上相同的电荷,然后放在相同的电场的同一条起跑线上,让他们在电场场力的作用下运动相同时间,由于qE=F=ma,q和E都确定,则DNA短链的移动加速度a只取决于其质量m,换句话说就是其长度,所以电泳过后就能把混在一起的DNA子链按照分子量大小的顺序依次排开。
这只确定了一种碱基的分布。桑格设计了四条平行电泳槽,分别加入ddATP,ddTTP,ddCTP,ddGTP,调整好双脱氧核糖核苷酸和正常脱氧核糖核苷酸的比例,就能够使每一个位点都存在一个在这里截止的短DNA子链,这样电泳完了以后只要看看四个电泳槽中从远到近的DNA条带分布顺序,就能从前到后地读出DNA分子的序列。
1975年,桑格把DNA测序方法改进到了我们上述的水平。1977年,他在《自然》杂质发表论文,昭示全球:桑格已经利用一种崭新的技术手段测出了ΦX174病毒的全部DNA序列,其中包含9个基因。现在,曾经的蛋白质测序泰斗弗雷德里克·桑格,已经读懂了基因的语言。后人把这种测序方法称为第一代基因测序法,也叫桑格测序法。
其实,在桑格开发自己测序法的同时,哈佛大学的吉尔伯特和马克西姆也在研究类似的测序法,他们利用一种特殊的磷酸基团来起到相同的终止DNA复制的效果,但是效率远远比不上桑格测序法。后来,人们给四种双脱氧核糖核苷酸带上了荧光标记,这样一来可以把所有的脱氧核苷酸和双脱氧核苷酸都加在一个池子里,只需要一条电泳槽,就能够通过颜色的排列读出DNA上的全部序列。这种改进的桑格测序法被一些人称为”第1.5代基因测序法”,半自动化的改进桑格法最终成为了人类基因组计划的主力方法。
为了制造出足够多的DNA子链,桑格法需要大量的纯化过的目标DNA分子。彼时穆里斯还没有发明能够在体外快速扩增DNA的PCR技术,所以如何获取大量的目标DNA片段成为了DNA测序的一个技术难题。幸好,也在20世纪70年代,在桑格致力于桑格法的开发的同时,美国科学家伯格,博耶和科恩开发出了通过病毒转染或者细菌重组质粒来在不同物种中平行转移DNA片段的技术,人类可以把想要的DNA片段转入大肠杆菌之类的常见无害细菌体内,在摇床上的液体培养基里大规模培养。这就是DNA的分子克隆技术。有了分子克隆,桑格法终于可以放开手脚,测遍所有模式生物的序列了。
哈佛大学的吉尔伯特尽管在创制测序方法上输给了桑格,但是他在解读获得的序列方面取得了巨大的成就。吉尔伯特发现,对于真核生物来说,并不是所有的蛋白质都是由一大段相连的碱基对编码的。确切地说,基因会被漫长的非编码序列切的七零八落。在转录出mRNA后,还要用一系列复杂的生化反应把这些非编码序列切除,把剩下的mRNA片段连在一起,才能进行翻译。吉尔伯特称这些无意义的间隔为内含子,而称编码序列为外显子。基因被分割成一个个的外显子体现了模块化的思想。用印刷术作比喻,一块完整的基因就如同一块完整的雕版,而一个个分离的外显子就像一个个活字。如果需要印刷一本500页的英文书籍,就需要500块各不相同的雕版,然而仅仅26个字母活字加上少许的几个标点符号就足以完成同样的工作。这使得真核生物可以用并不多的基因量来实现复杂而多样的功能,至此,基因的数目和生物的复杂性已经没了关系。人类有20000到30000个基因,在基因的世界并不算很多,数目甚至比不上玉米。
而早在1970年就被人类发现的逆转录酶更是让桑格法的应用又升华了一个层次:逆转录酶可以利用RNA还原出作为其模板的DNA,换句话说,通过提取细胞当中的RNA,逆转录后对其对应DNA进行桑格测序,就能识别出究竟是哪个基因指导了这个RNA的表达!至此,不同基因的表达量也纳入了已知世界的范畴。我们甚至可以通过追踪对应RNA的翻译产物来读出一段DNA序列的功能!!!
桑格,伯格和吉尔伯特解决了基因测序的实现与测得基因序列解读的重大问题。因此,他们三人于1980年获得了诺贝尔生理学与医学奖。这已经是桑格第二次站在诺贝尔奖的领奖台上了。第一代测序技术已经如此成熟,然而人们还仅仅沉醉于解开果蝇或者秀丽隐杆线虫的遗传密码。是时候展开一些真正的大项目了。
第四章 基因大战争:人类基因组计划
时间来到1986年。在刚刚过去的十年中,第一代测序技术已经成功定位和测序了许多十分重要的人类遗传病基因,比如亨廷顿舞蹈症和血友病基因。到了80年代末期,科学家已经彻底摒弃了”大多数遗传疾病都是由单基因调控的”这样的美丽幻想。事实证明,绝大多数的遗传病,都是由多个基因共同调控的,最典型的就是癌症。癌症的发病,甚至可能涉及到几十上百个基因的突变。仅仅了解单个基因已经不足以满足时代发展的需要。DNA之父沃森的儿子,在这个时候因为精神疾病被关进了医院,而已经有充足的证据表明精神疾病和遗传因素有关。悲苦的沃森坚信,儿子的病症是由多基因调控的。只有一种方法可以挽救千千万万这样的孩子:对人类的整个基因组,30亿个碱基对进行全部测序。
人类基因组计划的根源来自1986年沃森在美国冷泉港举办的”现代人的分子生物学”主题会议。许多英雄豪杰齐聚于此,在这场盛会上抛出了各自的划时代的技术发明。其中凯利·穆里斯带来的技术最为关键:聚合酶链式反应,简称PCR。对于漫长庞大的人类基因组来说,想通过原核生物来进行分子克隆可行性很低。PCR技术能够廉价快速地在体外合成大量的基因,这使得人类基因组计划成为了可能。埃里克·兰德是一位数学大师,他带来了一种全新的算法,使得人们可以锁定遗传病和对应基因序列的关系。勒罗伊·胡德则带来了加州理工大学研制的一种半自动测序仪,它比传统的桑格法测序快上20倍,更是大大解放了测序工作的生产力!!
最终,1989年,史无前例的人类基因组计划正式上马了。这个庞大的计划依靠的是一种在今天看来非常原始落后的技术手段:桑格测序法,从而产生了一种宛如中国科学家拿算盘往出打原子弹一般的不协调感。这一方法花费很大,只靠科学家自发无法完成。于是,美国国立卫生研究院下场,开始争夺这个民间自发的宏大计划的主导权。很快,英国,德国,日本,中国也加入了项目。然而,美国国立卫生研究院麾下的一名叫做文特尔的生物学家却对整个计划的测序方法产生了离经叛道的见解。
摩尔根时代,在还不清楚基因的分子基础的时候,人类就发明出了把基因定位在染色体上的方法。到了90年代,基因定位已经相当成熟。人类基因组计划的打算是,利用基因定位技术先确认不同基因彼此之间在物理上的关联和位置关系,然后再进行大段的桑格测序,最后把这些序列一拼就好了。然而,漫漫的碱基之海中相当大一部分都是非编码序列,基因片段如同一座座小岛。一点一点慢慢探寻整个序列的做法无疑会使得人类基因组计划进展缓慢。
文特尔认为,我们只需要关心短小的序列。可以先把整个基因组用类似鸟枪的装置击碎成上百万个微小的片段,然后随机选取几十万个序列进行测序,最后通过不同序列之间重叠的部分通过计算机算法把他们连在一起。比如说,我们有许多”1145141919810”这样的文本,把这些文本随机击碎,我们可以得到”1145”,”4514191”,”1919810”这样的片段,通过算法,就可以还原出原文。这种测序方法被文特尔称为”鸟枪法”。
然而,人类基因组计划委员会对文特尔的设想展开了无情的批判。首先,把上百万个片段准确无误地连在一起,其中的运算量就大的无法估计,要开发这样的算法更是难上加难。以及,经过这样的随机选取,我们可能测了人类真实基因组中的百分之七八十,就乐乐呵呵地开香槟庆祝人类基因组计划的完成了,人类基因组那些没有被文特尔抽中的片段将会永远遗失在黑暗之中。
文特尔对委员会和美国卫生院的谨小慎微十分不满。他认为,要想得到高回报,就得承担高风险。于是文特尔离开了人类基因组计划的队伍。他离开人类基因组计划之后甚至想要为自己测得的序列申请专利,这更是引发了一片哗然。文特尔走后自己创立了TIGR公司,企图凭借一己之力用鸟枪法把人类基因组测出来。1993年,为了证明鸟枪法的可行性,文特尔公布了利用鸟枪法测得的流感嗜血杆菌完整的基因组。对此,测序之父桑格对此表示了盛赞。由于TIGR有国家注资,文特尔后来又离开TIGR创立了celera公司,并于1998年发表了秀丽隐杆线虫的全基因组序列,把鸟枪法的热度又炒上了一个台阶。即使是鸟枪法的反对者也不得不承认,尽管确实会有所遗漏,但是鸟枪法得到的数据质量确实也很好,而且和逐步克隆法相比快的多的多。差不多同时期,人类基因组计划才完成了三分之一。文特尔的celera在2000年又发表了果蝇的全序列以后就立马把所有的产能投入到了人类基因组的测序当中,一定要和人类基因组计划试比高。面对咄咄逼人的文特尔,克林顿总统先斡旋文特尔和人类基因组计划在2000年末共同宣布了人类基因组”初步测序的完成”,然而彼时双方都没有做完手头的工作,在虚情假意的停战之后就各自疯狂地投入了测序工作当中。
2001年初,文特尔和人类基因组计划的矛盾终于无法按捺。他们双方分别在《科学》和《自然》上发表了自己的成果,以及对对方阵营的攻击之辞。其中,人类基因组计划发表的雄文长达六万六千字,是有史以来《自然》杂志刊登过的最长文章之一。时至今日,文特尔本人和他的鸟枪法依然没有摆脱争议。但是,可以断言,如果没有文特尔的兴风作浪,人类基因组计划恐怕无法在2001年就早早完成。
人类基因组计划vs文特尔是世纪之交最为轰轰烈烈的科学大战。由于双方都急于发表成果,导致测序结果其实并不完备,历史遗留问题直到近年才得以解决。然而,正当人类基因组计划和文特尔激战正酣时,一个新的势力正在暗中崛起,他不但会引领新的测序时代,而且还会彻底把历史悠久的桑格法扫进”过时事物”的行列。它就是illumina公司,第二代测序技术的发明者。
第五章 乖巧的分子:illumina测序
illumina本来是一家锐意进取的小公司。几个主创人员在八十年代末相识,经历了十年的洗礼,于新世纪初正式开始提供服务。可以说,illumina眼睁睁地见证了桑格法的巅峰和人类基因组计划剑拔弩张的乱战。这一切的争斗都是源于一件事:传统桑格法不够高效。可以说,人类基因组计划把第一代测序的孱弱暴露无遗。只要能够从根本上开发出一种新型的高效测序方法,就能够击破加州理工大学的测序仪业务和文特尔的celera帝国,把全世界的测序业务统一在自己的麾下。要想做到这一点,就必须创制一种高通量测序的方法。
所谓高通量,指的是一次对成百万上千万的DNA序列进行测序,从而大大提高测序效率。传统桑格法的问题在于”先合成,后测序”,把带荧光的ddNTP加入,等到DNA扩增完了,再拿到电泳槽里跑电泳,一次只能测一小段,之后还得再反复合成,测序,十分麻烦。也许我们不用这么做——请你想象这样一个场景:一台超级精确的显微摄像机为整个DNA分子合成的过程录着像。我们把大量荧光标记了的dNTP投放进去,也许A是黄色,T是红色,C是蓝色,G是绿色,然后DNA在合成酶的作用下开始合成。带A碱基的核苷酸结合上去了!一道黄色闪光划过,咔!摄像机拍下了一张散发着黄色光芒的照片。紧接着是G,绿色!C,蓝色...每一张照片都作为序列信息实时保存在电脑里面。最终,当合成结束的时候,我们已经有了这段DNA分子的完整序列,合成和测序同时进行,也就是所谓的”边合成,边测序”。
然而,首先,酶的催化具有高效性,这使得现实中DNA分子合成的速度极快,你根本来不及拍照,新的核苷酸就连接上去了。其次,单个核苷酸发出的荧光过于微弱,根本无法被有效探测。再次,好几种核苷酸一起发出荧光,结果就是哪一个核苷酸的颜色都看不清楚。要是能有一种特制的核苷酸,连到链上去以后立马暂停合成,老老实实地等我们拍完照以后,自动消散自己的光芒,然后重新开启合成反应,让下一个带着荧光的核苷酸连上来,那该多美好啊!啊,同时,还要有几百万条这样的链,同步进行一样的行为,同步发出一样的荧光,从而让我们的摄像机可以清清楚楚地看见。
这样的技术设想并非完全的科幻小说。首先,能够暂停合成的核苷酸,早在1975年就被伟大的桑格发明出来了。问题仅仅在于如何再次开启合成。illumina决定对核苷酸采取新的编辑方式,不是通过把3号碳原子上的可怜核糖的最后一个羟基也去掉,而是使用一个叠氮基作为”盖子”把这个羟基给盖住,这样一来,当我们用化学方式把这个叠氮基洗掉的时候,就能让被掩蔽的羟基暴露出来,再次构建磷酸二酯键了,由此,合成反应也就可以继续进行了。这就叫做”可逆转的合成终止”。有了这个思路,我们不难想到如何让荧光消失。illumina公司在核苷酸的碱基上链接了一个可以通过化学方式洗掉的荧光物质,就解决了这个问题。
最终的难关就是DNA的扩增了。为此,illumina公司设计了一种Flowcell(可以翻译为”流动池”),这是一个载玻片大小的玻片,里面有八条流动槽,相当于一个基因芯片(关于基因芯片技术,在此不展开讲述),里面密密麻麻分布了上亿条DNA引物序列,总共两种,通过共价键牢牢地结合在流动槽底。这两种DNA的序列是人为设计的,也是我们已知的。在测序前,把目标DNA片段的两端用连接酶黏上设计好的引物序列,分别和池子里的两种序列互补,就像鞘或者帽子一样,然后把目标DNA片段放到流动池里,这个”帽子”就会与池子里的DNA互补配对,之后用DNA合成酶在池子里锚定在池底的DNA引物上合成出原来目标片段的互补链,洗去原来的目标片段,就得到了紧紧结合在池底的完整DNA片段了。可以把这样的DNA简化为”A端——目标DNA序列——B端”的模式,如果连在池底的是A端,在上方飘荡的B端就会弯下腰来,和其他连在池底的B端DNA序列互补配对,然后再用合成酶合成,就可以在另一个锚点也复制一个一模一样的DNA序列。其中,碱基互补配对的开始于停止可以通过池中洗液的酸碱性调节。这样,就可以大量扩增DNA序列了,这个过程称为”成簇”。
成簇以后的事情就按部就班了:带荧光物质和叠氮基帽子的核苷酸合成上去,合成停止,照张相,洗掉荧光物质,洗掉叠氮基,合成继续,循环往复...整个流动池中密密麻麻上一条DNA序列都会同步进行这一工作。
这就是所谓的illumina测序法。#(更进一步的技术细节请明瑶整合)
illumina测序法可以一次性完成上亿个DNA片段的测序,其通量之高令人咋舌。另外,由于只需要加加药品和换换洗液,可以做到相当高的自动化程度。截至2022年,illumina已经把测一个基因组的花费降低到了600美元,并且计划在近几年内把这个花销降低为100美元。要知道,2001年完成的人类基因组计划利用桑格法,每测一个碱基对就要花1美元(出自吉尔伯特的计算),而人类基因组足足有30亿个碱基!!!illumina测序和所有第一代测序根本上不是一个维度的东西,当人们轻飘飘地称其为”第二代测序技术”时,你要知道”第二代”这三个字中蕴含的分量。
然而,不要忘记,illumina法也只能测几百个碱基对的短链。所以,在illumina测序前,要先把完整的DNA序列用超声波打碎成几百万个片段......我知道你想到了什么,鸟枪法!没错,illumina并不是孤立的,它在合成终止方面的思想几乎完全承继自桑格法,而它片段测序的思想则来自文特尔的疯狂设想。感谢文特尔的公司对序列分析算法做出的巨大贡献,这使得illumina在创制自己的拼合片段序列的算法时轻松了不少。
时至今日,illumina的测序仪几乎占领了全世界的所有测序市场。2020年初,新冠疫情爆发,中国科学家很快就测出了新冠病毒的序列,用的是illumina的测序仪。2021年,美国辉瑞公司开发针对mRNA疫苗,用的还是illumina公司提供的序列信息。illumina的声威已经如此昌盛,以至于基因泰克,TIGR或者celera的辉煌往事都已经鲜少有人提起。从封建时代的遗传观启航,随着我们的时间轴来到现代,按道理这个故事也该告一段落了。可是,在最后一章,我会邀请你窥探未来的倩影。欢迎来到:第三代测序!
第六章:未来的边界:第三代测序技术
不管是桑格测序还是illumina测序,都局限于对小DNA片段的测序。最终,都要面对一大堆鸡零狗碎的序列,调用能让主板热得能煎鸡蛋的那么多运算力,设计非常复杂的算法来把它们拼在一起。那么,能不能直接对一长段序列,甚至一个完整的DNA分子进行测序呢?
我们可以想象,如果可以让一个完整的DNA分子不停合成,不停进行互补配对,同时能够有一种非常敏感的装置实时检测每一个碱基的安装,那么就可以实现对一个长序列的完整测序。这样的技术不需要任何”合成终止”的要素。所以说,如果说illumina测序的核心深处依然有一个桑格测序的灵魂的话,那么第三代测序技术则就完全拜托了合成终止的桎梏,这也是第三代测序之所以可称为新一代技术的关键因素。第三代测序技术的核心,是小到纳米级别的孔。
早在1993年,科学家就实现了让完整的DNA分子通过α-hemolysin纳米孔。这为十几年后纳米孔技术的研发打下了坚实的基础。2008年,在第二代测序技术发展的如火如荼的同时,Jens Gundlach就利用MspA纳米孔首次成功测定了单个DNA分子的序列信息。可以说,第三代测序技术尽管叫做第三代,但是实际上很大程度上是和第二代共同发展的。
纳米孔技术的核心是利用电场驱动带电荷的DNA分子通过一个蛋白质纳米孔,一系列蛋白质和酶帮助DNA分子匀速运动。每一种核苷酸,因为携带碱基的不同,具有的带电性和空间构型也不同,因此在通过纳米孔时会对过孔电流产生轻微的扰动。用电极连接蛋白孔,就能够记录并解析这些扰动,并且实时记录整个DNA分子的序列信息。在这个领域,牛津大学处于领先地位(还记得桑格是剑桥大学出身的吗?)。
第三代测序技术的好处显而易见。它不但可以免于拼接大量DNA小片段,而且利用物理手段,甚至还能够探测到表观遗传的变化(简单地说,表观遗传就是指DNA分子被其他基团修饰的现象)!然而,尽管免于了拼接算法,讲电信号序列翻译为氨基酸序列的工作又需要一种新的算法,在第三代测序中一般被称为basecalling。此外,由于电信号容易受到各种因素的扰动,即使有诸如反向再测一次的校正机制,第三代测序的错误率和illumina比依然非常高。最后,把第三代测序阻挡在广泛应用之外的最重要的门槛是它相对于illumina测序高昂的成本。
第三代测序是基因测序的未来吗?纳米孔会取代所有合成终止型的测序方法吗?我不知道。但是,我们从历史中得到的教训告诉我们,永远不要轻视任何一个技术储备的发展潜力。随着表观遗传学在生物学中日益成为显学,第三代测序技术可能会在技术迭代和成本缩减的过程中日益逼近属于它的新王座。
尾声
达尔文现在终于可以安眠了。在他身故以后,遗传学的发展从根本上拯救了进化理论,把达尔文主义和基因遗传相结合的现代综合进化理论,时至今日依然被进化生物学家奉为圭臬。有了基因序列的测定技术日新月异地发展,和化石证据相结合,我们甚至可以编制出分子钟,以碱基为单位精确地测量进化速率。DNA之父克里克说过,”每个人都有自己的现代音乐”。在自动测序仪,摇床和恒温培养箱运行时咯啦咯啦的旋律中,达尔文和孟德尔的迷梦被以一种前所未有的精确性定量描述了。进化与遗传的图景从未像现在这样清晰过。
然而,人类面前的问题,和19世纪相比非但没有减少,反而变得比那时还多得多。内含子有什么深层作用?DNA是怎么起源的?DNA的表达是如何调控,以至于细胞分化与凋亡的?我们能利用基因序列破解干细胞返老还童的秘密吗?或者说,我们能利用基因测序诊断甚至治愈癌症吗?基因能够作为疫苗使用吗?遗传病可以治愈吗?DNA的表观修饰是怎么遗传的?基因能在多大程度上决定一个人的命运呢?只要生物科学还存在一天,这样的问题现在不会有,将来也永远不会有其尽头。而要解答所有这些问题,要不然就要诉诸基因测序本身,要不然就要以基因测序为基础。我们可以断言,基因测序的历史还在进行之中。
参考资料
悉达多·穆克吉《基因传》
詹姆斯·沃森《双螺旋》
高中生物《必修二》
illumina公司官网https://illumina.com/
illumina公司官方原理介绍视频https://www.youtube.com/watch?v=fCd6B5HRaZ8
第三代测序简介