从人类基因组计划到精准医学——比较医学的发展趋势与挑战
回顾人类基因组计划到精准医学的发展过程,对我们全面准确地认识比较医学,进而更为精准高效地开展比较医学研究有重要的启示。“人类基因组计划”自20世纪80年代末启动以来,通过对人类基因组越来越精细、越来越全面的序列测定,以及开展相关的不同层次的生命“组学”研究,形成了系统生物医学研究体系和转化医学研究平台,成功地实现了“人类基因组计划”的初心将人类自身转化成医学研究(试验和实验)主要对象。在此基础上,基因组学与生命多组学、系统生物学与转化医学的研究理念,以及同时产生的从基因编辑到细胞编程、哺乳动物体细胞克隆等一系列颠覆性技术创新,从根本上将以实验动物为研究对象的“比较医学”提升到了一个直面“多尺度、高维度、异质性”复杂体系挑战,搭建多层次“类人”实验动物(从群体、个体到细胞、分子)体系的全新的高度。
进入 21世纪以来,以基因组为主的生命科学,尤其是系统生物医学及转化医学研究和实践所带来的数据积累量达到了EB(1018)量级,标志着生物医学研究进入了“大数据”时代。然而,带来巨大发展机遇的同时,生物医学研究也面临着技术与管理方面的巨大挑战。在这个方向上,今后的工作重点应是建设针对系统生物学、比较医学和转化医学等研究型核心数据的国家生物医学大数据治理体系。而比较医学研究也要面对进入“大数据时代”带来的新的机遇和挑战,全面提升以“交叉会聚研究”、“使能技术创新”、“数据智能转化” 和“精准类人服务”为特征的科研水平,主动承接人类基因组研究所带来的协同生物医学科学技术研究为人类健康服务的重大历史责任。
1. 人类基因组计划:人类成为研究肿瘤的优选实验物种
Science发表了一篇两页纸的文章《肿瘤研究的转折点:人类基因组测序》开启了人类基因组计划的序幕。
这篇文章首先提出“如果想更多地了解肿瘤”这个科学问题,然后提出“我们从现在起就必须关注细胞的基因组”的研究假说;紧接着提出了两种可能的研究方法:一种是对恶性肿瘤重要基因进行逐个解析,另一种是对某种动物的整个基因组进行测序分析。最后该文指出:相比而言,从后者入手更有成效,而且由于我们想了解的是人类肿瘤,那就应该从人类开始。由此,Dulbecco预言“结合培养的细胞和免疫缺陷小鼠,人类将成为研究肿瘤的优选实验物种。”
当时,Dulbecco提出人类基因组研究的目标,一个是对DNA的详细认识可以推动人类肿瘤研究,另一个是可以对肿瘤之外的人类生理与病理探索发挥关键作用。现在回过头来看,人类基因组研究的意义已经远远超出了这两个目标。时至今日,全世界的生物医学研究与实践几乎都会利用基因组学研究的成果,而且只有充分利用基因组学研究的成果,才能最有效地获得科研突破,实现临床防治的效果。
由于20世纪80年代的中国首先要实现人民生活温饱,科研投入有限,中国对于基因组研究最初的响应是参加由日本牵头的国际水稻基因组计划。水稻是代表单子叶植物的重要的模式生物,又是中国人民的主食农作物,这样的选择是有道理的。当然,中国生物医学科学家们也在为人类基因组研究做准备。1994年,时任国家自然科学基金委员会生命科学部主任的吴旻院士,在当时主管生命科学部的基金委副主任梁栋材院士的积极支持下,成功设立了中国人类基因组第一个重大项目“中华民族基因组若干位点基因结构的研究”。此后,从科学家到政府逐步形成两个共识。一方面是中国人口基数大,不仅占世界人口总数的 22% ,是亚洲人群的主要代表;而且中华民族是一个多民族群体,曾经有丰富的地域隔离与融合的历史,因此我国丰富的人类遗传资源是研究人类遗传多样性、人类进化和人类疾病相关基因的宝贵材料。另一方面,我国生物医药产业发展和人民生命健康保障都离不开中国人自己的基因组信息,这一点不能仅依靠国外研究产生的数据,必须得有中国自己的基因组计划, 获得具有自主知识产权的研究成果。因此,20世纪 90年代中后期,在特定的历史机遇如创新工程、积极财政、科教兴国和人才回归等条件下,中国的人类基因组计划走到了“水到渠成” 的历史关口。
1997年 7月,谈家桢院士上书中央,呼吁保护我国遗传资源,建议加快我国人类基因组研究进度。江泽民总书记在第一时间批示:人无远虑必有近忧,我们得珍惜自己的基因资源[2]。国务院领导随即召开有关部委会议,做出了“保护和利用我国人类遗传资源,促进我国人类基因组研究”的重大决策。从此,中国的人类基因组研究进入快速发展阶段。在第 9个五年计划期间,共启动了 4个方面的工作。
(1)参与国际人类基因组计划的“两个1%”,即完成1%人类基因组DNA(约 30 Mb)的测序工作,以及1% 人类基因cDNA(约 500~1000个)的克隆和鉴定工作。
(2)开展医学基因组学研究,即科技部与卫生部合作,支持建立全国人类疾病遗传资源收集网络,从单基因疾病开始进行疾病基因鉴定;同时,从建立单核苷酸多态性(singlenucleotidepolymorphism,SNP)分析技术开始,建设从单体型图(HapMap)到全基因组关联研究(genome-wideassociationstudies,GWAS)的技术平台。
(3)开展以人类健康为宗旨的功能基因组学研究,包括以转录组(transcriptome)为基础的表观基因组学(epigenomics),以及蛋白质组(proteome)和结构基因组学研究等;此外,模式生物(modelorganisms)和生物信息学也是两个非常重要的研究内容。需要说明的是,虽然人类基因组计划的研究重点是人,但仍然包含模式生物,特别是实验动物的研究内容。
(4)有关伦理、法律和社会问题(ethical, legalandsocialimplications,ELSI)的研究,这也是一个非常重要的部分。中国正是从开展人类基因组研究以来,才认识到必须重视这些问题,开始成立这方面的研究机构。国家人类基因组南方研究中心在全国最早成立了专门的伦理、法律与社会问题研究部,并于 2003年,以其研究成果,支撑科技部和卫生部出台了《人胚胎干细胞研究伦理指导原则》,此原则一直适用至今。
2. 比较医学的历史与发展趋势
2.1 比较医学的发展历史
比较医学研究动物与人类生命现象之间的关系,是以动物(特别是实验动物)科学为基础,对人类各种疾病进行类比研究的一门综合性前沿学科。但实际上,利用动物进行比较医学研究最早开始于公元前三百多年,至今已经有两千多年的发展史,为促进动物及人类医学发展发挥了举足轻重的作用(表 1 )。

比较医学的一个重要研究对象是实验动物,即模式动物。检索PubMed数据库中,全世界近70年来有关模式生物研究的相关文献,可以发现模式植物/ 微生物如拟南芥、大肠杆菌和酵母相关的论文数有 57.8万篇,以线虫、果蝇和斑马鱼为模式动物的研究论文数有12.7万篇,而单单以小鼠为比较医学模型的论文数竟然高达128.2万篇。这充分说明,小鼠是比较医学研究中一个非常重要的实验动物模型,比较医学研究已经成为生物学和医学发展的重要基础,对人类医学发展贡献很大。当然,比较医学研究涉及到的动物模型有很多,除了小鼠外,还有大鼠、仓鼠、猪、羊、猴、雪貂和树鼩等,人们还在不断开发新的实验动物资源。最近,上海某团队正在研究骆驼,因为骆驼是一种血糖水平很高但不发生糖尿病的特殊动物,对其进行比较医学研究有望为治疗人类糖尿病带来新的希望。
2.2 比较医学的发展趋势
比较医学的发展趋势比较医学的发展大体上可以分为 3个阶段。第一阶段是早期的比较医学。西方学者比较早地认识到人也是动物(人属于脊椎动物、哺乳动物、灵长类动物),所以在组织、器官和整体水平上可以和不同种系的动物进行生理和病理异同的比较。这也是最早期的生物分类学和解剖医学。因此,从这一点上说,西医是建立在以解剖学和比较医学基础上的医学,与中医有着巨大区别。
第二阶段是近代比较医学,即应用人工培育的各种实验动物(包括近交系、免疫缺陷和无菌及悉生动物等)建立各种模拟人类疾病的动物模型来研究疾病,或开发治疗药物。可以说,这一阶段的比较医学是近代病理学、生理学和药理学的基础。很多用实验动物建立的模型也是药物
就是从人类基因组研究开始,一直到系统生物学与合成生物学发展,比较医学进入了新的阶段。
系统生物学,特别是系统生物医学研究的目的是系统地认识人;而合成生物学是以改造或创造生命系统为目的。因此,现代比较医学的第一个重要特点就是实验动物人源化,即通过转基因、基因打靶、基因编辑和克隆等技术,构建“人源化”的基因工程动物,以此便于与人类的生理与病理现象对应比较。同时,当在基因组学基础上发展起来的系统生物学手段被普遍应用于实验动物的研究时,实验动物模型与人类生理、病理的异同也日益清晰,人类在比较医学研究中也就越来越采用类人化的实验动物模型构建方法。现在,人们已经认识到,研究实验动物不是为了认识动物,而是为了认识人类疾病与健康的机制。因此,进行比较医学研究时需要选择合适的动物模型,至少在被研究的某部分(器官、系统)或某阶段(健康或疾病阶段)要与人相似,否则一些药物即使在动物模型上有效,应用于人就无效。实验动物模型的类人化非常重要,这是现代比较医学的第二个特点。现代比较医学的第三个特点是物理、化学、计算机和工程技术的会聚,实验动物建模和检测体系更加趋于精准化。例如脑科学研究中,生物医学与计算机和物理光学等多学科的融合更加紧密,实验动物建模和检测技术、手段需要越来越精准,趋于数字化、信息化和网络化发展。
2.3 人类与实验动物作为研究对象的比较
对比人类和动物作为生物医学研究对象的异同(表2),可以看出,现代医学研究最好的对象应该是人,因为人类遗传信息丰富,尤其是人类基因组计划实施以来,人类比动物的基础性研究信息要量大、质量高;另外,人类有语言功能,比动物更容易收集到更多信息,行为便于观测。因此,循证医学研究、队列(人群)研究或药物临床试验等都是以人为研究对象的很常用也很有效的一些研究。然而,以人为研究对象时,那些具有高风险的实验以及创伤性的取样等在伦理上很难或几乎不可能实现。相比之下,以实验动物为对象的基础及应用研究会更易于控制条件、设置对照,甚至可以活体取样解剖,具有很多的优势。当然如何合适地建立人类疾病动物模型,并组合使用好模型,简单地说,动物模型人源化或类人化,依然是当前比较医学的一个难点。

例如,在研究人类代谢机制和代谢相关疾病时,直接用人类样本有两大难题:一是饮食控制难(也属于依从性差的问题),二是组织样本收集难。而实验小鼠的代谢笼就比人类代谢实验室的投资小,收益大。到目前为止,代谢疾病模型,如肥胖、糖尿病和酒精肝损伤小鼠模型等,都获得了很多的研究成果。需要说明的是,小鼠作为代谢疾病模型用于药效测试,仅能用其可用之处,例如小鼠的脂代谢(特别是胆固醇代谢)与人类相去甚远。因此,在做降胆固醇药物测试的时候,就要用与人类胆固醇代谢较相似的金黄仓鼠模型;如果测试有效,再用大鼠、小鼠做机制研究 ,这才是可以的。
在研究人类神经心理机制以及精神性疾病和治疗手段时,一般常用小鼠的行为(如运动、探索、记忆、社交和痛觉等)表型建模,如筑巢试验、嗅探试验、梳洗试验、Y 迷宫、水迷宫、高架十字迷宫、强迫游泳试验、悬尾试验和旷场试验等,它们一般都能够实施定性、量化的行为学观测和指标评价。但是,在这方面建立合适的小鼠疾病模型也是不容易的。目前已经建立的神经系统疾病模型有精神分裂症、饮酒成瘾、坐骨神经痛、抑郁症和焦虑小鼠模型。当然,在这个方面,非人灵长类动物模型有着特殊的优势,因为非人灵长类动物的探索方式和过程与人类接近。本研究团队曾经开展过食蟹猴行为学研究, 包括运动、探索、防御、社交、昼夜节律,以及对新鲜事物和潜在危险情形的反应等,效果很好。
还有一个经典例子是阿尔茨海默症(Alzheimerdisease,AD)动物模型。由于AD是多因素参与、形成过程很长的复杂疾病,单一转基因模型均有局限,因此进行AD药物研究时需要运用多种模型(如多种转基因或基因敲除模型联合药物诱导模型)组合来进行行为学检测、肠道菌群分析、免疫功能分析、代谢组检测和神经内分泌的全方位综合研究,才能筛选出有效的AD治疗药物。
总之,比较医学发展到今天,如何建立类似人类复杂体系、复杂疾病及相关复杂机制的动物模型是生物医学研究的关键基础。
3. 后基因组时代:从系统生物医学到精准医学
进入 21世纪,在人类基因组计划成功完成的基础上,一方面以高通量二代测序技术能力支撑的针对人类基因组更全面、更精细的各种大规模基因组测序计划不断发展(从千人到如今的百万人);另一方面,以全面认识基因组功能为目的的各种生命“组学”,如转录组(以及相关的表观基因组)、蛋白质组(以及相关的结构基因组)和代谢/ 代谢物组的研究,受到顶层设计指导下高通量大规模的“功能基因组”、“疾病基因组”和“药物基因组”等研究计划的推动,也迅速次第崛起。这一系列“组学”研究积累了与人类生理、病理相关的大量的数据与信息。由此,在这些数据基础上,自上而下以系统认识健康与疾病机制为目的的系统生物医学研究体系应运而生。当然,系统生物医学研究的对象与人类基因组研究的对象一样,依然是人类自身。所以,它必须将生物医学研究和临床研究紧密结合在一起,不仅让生物医学研究成果向临床转化,而且更为重要的是,将临床上发现的问题转化为生物医学研究的命题,即形成以系统生物学思想指导,以“组学”技术支撑的临床研究课题。如此,转化医学就成为生物医学研究的最重要的平台。这个平台,一方面将临床医务工作者推向了研究型医生(researchphysician)的高度,另一方面也将医学在认识和有效应用疾病分子靶标的基础上,推向了可预测(predictable)、可预防/干预(preventive/preemptive)、个体化(personalized)和参与性(participatory)4P医学的高度。当然,这两个方面的提升都将生物医学数据和信息的量与质提到了一个新的高度。
到 2015年,生物医学相关数据已经达到了EB量级(1018),标志着生物医学研究进入了大数据时代。在过去的人类研究历史上,只有 2个学科的数据超过EB级:一个是天文学(全世界的天文望远镜每天收集的数据信息总和),另一个是物理学(全世界的粒子加速器收集的实验数据总和)。如今生物医学成为了第 3个拥有海量数据的学科。
数据之间建立的关系是信息,信息之间建立起机制性乃至因果性的关系就是知识。当然,为了让生物医学知识能造福人类,还必须将这些知识转化为针对疾病和服务病人的医院工程和医生智慧,最后落实到每个人身上,而这就是所谓“依据个体的差异(遗传与环境),制定相应的疾病预防和治疗方案”的“精准医学”的目标。这个目标,在现代的拓展与深入,实质上就是基于:(1)系统生物医学研究所带来的包括人类 基因组数据、与患者生活环境相关的“暴露组”数据,以及临床研究数据等大量数据;(2)现 代强大的检测病人的技术方法所带来的多“组学”检测数据,以及分子影像与患者生理、病理相关的实时动态监测数据;(3)对这些生物医 学大数据进行有效的计算分析技术。换言之,没有包括病人真实世界数据在内的生物医学大数据的获取、整合、分析、挖掘,就没有今天基于对疾病精准的分类诊断,并赋予精准的药物或防治手段的“精准医学”。同时,“精准医学”是在通过对病人个体的检测分析、治疗方案设计、临床试用反馈,再进行积累和统计而逐步完善的。因此,精准医学研究也是一个群体研究与个体研究相结合的过程,特别是在个体开展的时序性、多“组学”检测研究,以及由此带来的多尺度、高维度、异质性的复杂大数据的爆炸性增长,更是人类生物医学研究中从未遇到的挑战与机遇。人类,从群体到个体,都成为了医学研究最好的对象。个人在整个生命周期中也能从精准医学中直接获益,这可能是人类发展史上一个伟大的革命!
4. 生物医学大数据和比较医学面临的挑战
一般来说,生物医学大数据与其他领域的大数据一样具有4V的基本特征:量大(volume)、速度快(velocity)、复杂(variety)、真实(veracity)。但是,生物医学数据与其他数据相比,因为其包括物理、化学和生物学的各种不同层次,类别更为复杂;而真实性也容易受各种自然或社会因素的干扰。因此,生物医学大数据在其“原始层面”上的“价值密度”是比较低的,这也正是在生物医学大数据带来的巨大发展机遇下,我们所要面临的同样巨大的技术与管理方面的挑战。
所幸,生物医学大数据的构成中有相对量较少,但兼具设计性、结构化、受质控的三类研究型数据。第一类是以人为对象的系统生物学研究数据,特别是国际人类表型组(phenome)研究所获得的关于人类表型的数据,以及脑计划研究所获得的关于脑结构与功能图谱的数据。第二类是以人群为对象的转化型研究数据,包括专病或一般人群队列研究、流行病学调查,以及循证医学研究与药物临床研究等的研究数据。这两类数据都是以人为对象的研究型数据,是生物医学大数据标准化质控的核心基础。第三类是以实验动物为基础的比较医学研究数据,大多来源于实验室、研发中心和药企。实验动物与比较医学研究数据不仅有设计和质控,更具有人群试验难以获得多种“正负处理”的对照实验结果,也有相应的组织器官的创伤性检测数据,这对人体的生物医学大数据的标准化质控具有重要的借鉴意义。总之,上述三类数据共同组成了生物医学研究型大数据的核心。
基于这个不容否认的现实,今后我国生物医学研究工作的重点是建设针对上述研究型核心数据的国家生物医学大数据治理体系;其核心是以大数据仓库/知识图谱为基础的集成“高质海量数据”、“快速专业计算” 和“整合智能分析”能力的“国家生物信息中心”;并在此基础上,建立采用同样标准规范的地域专业数据枢纽,形成逻辑统一、物理分布的“以递交为基础、整合为导向的数据存储,以主题为基础、交互为导向的数据共享,以及以传统信息技术为基础、前沿智能技术为导向的数据挖掘”的数据治理创新链。目前,比较医学研究也要面对进入“大数据时代”带来的新的机遇和挑战。首先,要认识比较医学与生俱来的“交叉会聚研究”特征,突出强化比较医学研究人员和实验技术人员的交叉学科知识与研究能力的提升,从模型建立到研究实验方案设计上,寻求突破。其次,要抓住基因组编辑、干细胞克隆、3D细胞培养和人工器官等“使能技术创新”,实现比较医学研究手段与实验技术的突破。第三,充分认识大数据时代带来的机遇,抓紧建设实验动物数据体系,推进比较医学研究的“数据智能转化”。最后,不忘比较医学服务人类健康科学与医学研究的初心,进一步推进实验动物人源化以及类人动物模型的建设,力争把比较医学“精准类人服务”提高到一个新的水平,真正提高为人类健康服务的效率与质量。
5. 总结与期许
最近,习近平总书记讲话强调,科学研究要特别重视原始创新能力的提升。在比较医学研究领域,与其他科研领域一样,首先要鼓励探索,突出原创,就是要抓住思想火花,敢于探索从 0到 1 的工作;第二,聚焦前沿,独辟蹊径,一定不能跟在别人后面亦步亦趋,而要直面前沿科学问题,创出自己的科研新路;第三,需求牵引,突破瓶颈,在面对需求问题时,要努力抓住核心的“卡脖子”问题,也就是关键问题;最后,共性导向,交叉融通,利用比较医学研究交叉会聚的天然特征,充分运用各种技术、各种模型, 综合解决重大问题。
作者:赵国屏,分子生物学家、中国科学院院士。来源:《实验动物与比较医学》