杜若甫|从DNA看56个民族是血缘相连的一家人

〔摘要〕本文根据 38 个基因座的基因频率,对我国各地的汉族人群与少数民族之间的血缘关系及各族的人种归属进行了分析。作者认为,全国各地的汉族与少数民族可分为南北两大群,南方各地汉族及各族间的遗传距离都比北方要大;长江以北的汉族与少数民族属北方蒙古人种,长江以南的汉族与少数民族属南方蒙古人种。且南、北汉族均与当地少数民族的血缘相近,而南、北汉族间的血缘却很远。这说明,长期以来,汉族与少数民族之间有很多血缘交流。
〔作者〕杜若甫,1930 年生,中国科学院遗传研究所研究员;肖春杰,1960 年生,云南大学生物系教授。
我们根据中国各地汉族人群和少数民族(共38个)基因座上的基因频率数据,计算了这些人群和民族两两之间的Fst遗传距离;然后根据遗传距离进行了聚类分析,绘出了聚类图,用的是相邻单位连接法(Neighbor-joining method)。此外,还利用这些基因频率数据进行主成分分析,然后以第一二主成分为坐标,绘制了主坐标图。这些基因频率数据来自国内外的有关文献和我们尚未公开发表的调查数据。
经过计算与分析,一共有1923套基因频率数据可用(一个人群一个基因座上的基因频率算一套数据)。当同一少数民族或同一省、市、自治区的汉族人群在一个基因座上有不止一套的基因频率数据时,便用加权法得出其加权平均值,用平均值计算遗传距离,从而提高了基因频率的准确性。
一、汉族各地人群
30 个汉族人群间相互间的遗传距离共有 435 个数值(见表 1)。从表 1 所列数值可以看出,遗传距离最小的是 0—3 ,如黑龙江与吉林、山西、山东,辽宁与吉林、山东,山东与河南、吉林,湖北与云南,宁夏与安徽、甘肃、山东、天津,新疆与北京、天津、江苏、陕西、安徽、吉林、宁夏,吉林与天津,这些省、市、自治区的汉族彼此间遗传距离都很小。而广西与吉林、山东,青海与广东、广西,江苏与湖北,贵州与山西等遗传距离则很大,都在 1000 左右或以上。
由于表 1 所列遗传距离数据很多,不容易看出 30 个人群相互关系的主要特点,而从根据这 435 个遗传距离值进一步进行聚类分析所绘出的聚类图(见图 1)和主成分分析后绘出的主坐标图(见图 2),则可以比较明确地看出一些特点。
从图 1 可以看到,全国汉族分南、北两大支,图中台湾以上,都是长江以南的省、自治区,它们是浙江、海南、云南、福建、广东、江苏、湖北、四川、湖南、贵州、广西,而新疆以下除上海、江苏、安徽以外都是北方的省、市、自治区:天津、陕西、河北、吉林、山西、黑龙江、青海、山东、河南、辽宁、内蒙、甘肃、北京、宁夏。江苏与安徽分别包括了对苏北与淮北的调查结果,因此虽然与北方其他人群相距较远,但仍与北方人群聚到一起了。上海汉族来自四面八方,比较杂,这可能是上海汉族与北方人群聚到一起的原因。
从图 1 还可看出,南方人群间分得比较开,即每一枝杈均较长,枝杈长表示彼此间遗传差异大。而在北方人群中,一些真正完全是北方人的人群都紧密地聚到了一起,只有安徽、江苏、上海、新疆汉族人群才离得较远。南方人群间遗传差异比北方人群间的大,这是历史、地理原因造成的:1、当北方战乱与人口迁移频繁时,南方战争少,迁移也少。汉朝以后北方人口开始大批南迁,才迫使原来长江流域居民南迁,以后又西迁至贵州、云南,有一部人(苗、瑶等)一直迁至境外缅甸、越南等地。2、南方山多,交通不便,而北方有华北平原、关中平原、松辽平原等,交通方便,地理隔离少,因而北方各地相互间基因流动多,而南方各人群间隔离较多。

汉族 32 个人群(包括香港与澳门的人群)的主坐标图(见图 2)与系统树十分一致,北方人群在上方,南方人群在下方。北方人群中,包括了安徽、江苏、台湾、上海等,安徽、江苏、上海等汉族人群与北方人群相近的原因在上面已有解释。台湾人群实际上也来自四面八方,早期移民主要是从福建、广东等迁去的,而后来,由于蒋介石被逐而到台湾,有不少北方人去了台湾。在整个坐标图上,广西、湖南、广东、江西、福建、贵州等人群在最下方,而青海、山西、吉林、山东、内蒙、甘肃等人群在最上方,说明这两组人群彼此间的遗传结构差异最大。

总之,对汉族人群的遗传距离聚类分析以及主成分分析都明确显示,汉族分南、北两大群。南方汉族各地人群之间差异较大,北方汉族各地人群之间差异较小。
二、少数民族
37 个少数民族相互间的遗传距离见表2。表中数字表明,布依族与鄂伦春族(1611)、京族与鄂伦春族(1598)、布依族与哈萨克族(1555)、畲族与哈萨克族(1553)、达斡尔族与哈萨克族(1494)、佤族与鄂伦春族(1482)、布依族与锡伯族(1452)、黎族与柯尔克孜族(1413)、布依族与东乡族(1381)、壮族与柯尔克孜族(1365)等遗传距离较大,它们一般都是一个南方民族与一个北方民族,只有达斡尔族与哈萨克族都是北方民族,不过一个在东,一个在西。遗传距离较近的是德昂族与傈僳族(3)、赫哲族与锡伯族(10)、赫哲族与达斡尔族(25)、赫哲族与东乡族(26)、东乡族与回族(30)、东乡族与达斡尔。族(41)、达斡尔族与锡伯族(37)、达斡尔族与鄂伦春族(37)等,它们一般是两个北方民族或两个南方民族。可是也出现一些乍一看不太容易理解的数值,例如佤族与塔吉克族的遗传距离只有54,这可能有一定的偶然性,因为这两个民族目前都有基因频率的基因座数较少。而聚类分析和主成分分析,一般可以得出更符合实际的结论。
在用邻接法绘出的聚类图上,全国 37 个少数民族明确地分为两支,右边一支是17个北方民族,左边一支是 20 个南方少数民族(见图 3)。
在南方民族中,佤族不再与塔吉克很接近了,而是与傈僳、德昂、高山、傣等南方民族聚在一起了。四个新疆民族(维吾尔、哈萨克、塔吉克、柯尔克孜)单独成为一支,彼此间遗传距离不大(在图中以平行线的长度表示),最后与其他民族相聚。其中研究得较多因而基因频率数据较多的维吾尔族与哈萨克族,已可基本肯定应属蒙古人种,据初步分析,他们的蒙古人种血缘成分约占 70% 左右。
有点令人奇怪的是300多年前从东北迁到新疆的锡伯族,居然也和早在新疆的柯尔克孜、塔吉克、维吾尔、哈萨克等族聚在一起了。图3中东北的一些民族除鄂伦春外,彼此十分靠近。藏族属北方民族,但历史上却融入了少量中亚细亚人、波斯人、阿拉伯人的血缘。羌族也属北方民族。全国回族实际上并无统一起源,本文所用数据虽然也有一部分是海南岛回族的数据,但主要是宁夏等地北方回族的数据,所以回族仍归北方民族。
在 20 个南方民族中,彝、纳西、哈尼、白、阿昌、景颇、土家等族仍与北方民族比较靠近,说明这些民族或由于起源于北方,或历史上原来已融入相当多的北方蒙古人种血缘,但目前却以南方蒙古人种血缘为主了。傈僳族本来应与上述一些民族中的彝语系统民族比较靠近,但却与傣、德昂等更近,这可能也因傈僳族有基因频率的基因座数(10 个)较少,因而结果有些不太可靠。
壮、京、黎成为一群,说明他们遗传结构特别相近。瑶、侗、苗、畲、布依等也陆续归入这一群。
佤、德昂与高山等族在南方民族中离其他族较远。佤族、德昂两族和布朗族的语言属孟—高棉语系,他们是云南最早的土著,与其他民族差异必然较大。高山族实际上有9个人群,即泰雅、雅美、阿美、赛夏、布农、邹、卑南、鲁凯与排湾。在本文中,我们仍按目前国内习惯统称为高山族,把这九个人群的基因频率数据合在一起作为高山族的数据进行分析,结果表明,他们与我国其他少数民族差异较大。高山族是最后才与南方其他民族相聚的。
图 3 表明,南方民族这一支上的遗传距离一般都要比北方民族间的大。

在主坐标图(图 4)上,少数民族也同样分为两部分,即上半部分是北方民族,下半部分是南方民族。在北方民族中,哈萨克、维吾尔、塔吉克等族位置都偏左,彼此间比较相近。满、蒙古、朝鲜、藏、保安、回等族相聚在一起,说明他们遗传结构十分相似。藏族和满、蒙古、朝鲜等典型北方民族仍十分靠近,羌族、赫哲族等也仍与北方民族在一起。
在南方各民族中,高山、德昂、佤、京等族与其他民族相距较远,其中均操孟—高棉语系的德昂与佤两族十分靠近。纳西族与阿昌族和用邻接法所作系统树中的情况一样,十分靠近北方民族。土家、白、彝、景颇、哈尼在南方诸民族中也比较靠近北方民族。

三、汉族与少数民族间的关系
在根据表3所列的遗传距离用相邻连接法绘制的系统树(见图5)上可以看到,无论汉族和少数民族,都分南、北(即图中下、上)两大群。不过,总的说来,汉族人群间还比较靠近,而少数民族则分得很散。尤其是北方内蒙、甘肃、黑龙江、陕西、吉林等地的汉族更是紧靠在一起。南方汉族中,四川、湖南、贵州在一枝上,而且比较靠近;广东与广西在另一枝上,而且广西汉族与壮族紧靠在一起。土家族、彝族处在南方这一大群的最上方,靠近北方人群。

在主坐标图(见图6)上,同样也是上半部是北方人群,下半部是南方人群。在北方人群中,甘肃、内蒙、黑龙江、陕西等汉族及蒙古、朝鲜等族十分靠近,与满族、藏族也较近,散开得较远的是吉林汉族、鄂伦春族及维吾尔族。吉林汉族与黑龙江汉族等相距较远似乎有一定偶然性。在南方人群中,五个汉族人群都在右边,但分得较散,少数民族均较靠左。

四、一些初步结论
1、中国人(包括汉族与少数民族,从遗传学看,俄罗斯等个别少数民族也许应除外),可分为南北两大群,即南方蒙古人种与北方蒙古人种。长江以南的汉族与少数民族属南方蒙古人种,长江以北的汉族与少数民族属北方蒙古人种。
2、汉族起源于黄河中、下游的华夏族,本属北方蒙古人种,由于不断融合各地的其他民族,今天南方的汉族却属南方蒙古人种。
3、各地汉族与当地少数民族在血缘上相近,而南、北汉族间的血缘却很远。这说明,长期以来汉族与少数民族间有很多血缘交流,主要是少数民族大批地融入汉族,其次是汉族与少数民族相互间通过通婚和小批移民融合。
4、汉族今天成为世界上人口最多的民族,主要是不断地融入大量其他民族的结果。
5、北方少数民族中,蒙古、朝鲜、满、鄂伦春、鄂温克、锡伯、赫哲、达斡尔等是典型的北方蒙古人种。北方的回族、保安族也属北方蒙古人种。维吾尔、哈萨克等民族中虽有一小部分来自高加索人种的血缘,但仍属北方蒙古人种。羌、藏两族也属北方蒙古人种。
6、南方少数民族中,黎、壮、傣、布依、侗、瑶、京等是典型的南方蒙古人种民族,苗、畲等也属南方蒙古人种,德昂、布朗、佤三个民族和高山族,在我国南方蒙古人种各民族中有一定的特殊性,他们最接近于东南亚的一些民族。彝、傈僳、白、纳西、哈尼、阿昌等起源于北方的民族,由于现在已融入了大量南方民族的血缘,应算南方蒙古人种。土家族也属南方蒙古人种,但在南方各民族中,土家族与北方蒙古人种十分接近。
(本文原题为《从遗传学探讨中华民族的源与流》,有删节)