殷才湧 复旦大学生命科学学院博士,师从金力院士、李士林教授。在上一章节中,我们通过公开数据库中的中国人群Y-STR数据进行了人群数据库模拟。现阶段,增加Y-STR基因座和增加Y-SNP单倍群决定位点分型都可以对相似单倍型的情况进行进一步判断。这两者的侧重点有所不同,但相辅相成。Y-STR基因座的增加需要考虑中国人群的遗传背景,即panel所涵盖基因座的杂合度(haplotype diversity)、突变率(mutation rate)和整体突变率(overallmutation rate)。因此,设计并完成符合实战需求的Y-STR家系课题可以有效改善Y-STR基因座数量大幅增加后仍无法得出有效结论的疑问。而Y-SNP作为一种群体遗传学中很成熟的父系遗传标记,其定义的Y染色体单倍群(Y-DNA haplogroup)可以对不同的男性家系进行根本定义,进一步从群体迁移和历史演化的角度为其提供科学合理的解释。
由于Y-SNP的突变率和回复突变发生的可能性很低,根据Y-SNP构建的遗传进化结构非常稳定,这也为判断未知个体和目标家系的从属关系提供了可靠工具。上世纪80年代,DNA测序手段首先运用在多拷贝和长度短的线粒体上,科学家推断现代人类的祖先约于10万年前走出非洲。由于Y染色体回文序列很多,测序难度大,直到本世纪初科学家们才借助变性高效液相色谱手段获得相关遗传信息,且Y-SNP的结论与线粒体DNA高度一致[1]。而在本世纪初,本实验室金力院士团队在Science发文,首次揭示了东亚人群的非洲起源,推断出的时间段为3-8万年前[2]。这些研究都是在大规模人群分型遗传标记后观察共性特征,根据共有的突变体进行遗传结构定义。在本世纪初,Jobling等人对Y-DNA单倍群进行了综述,总结了如图1所示的遗传结构树[3]。随着研究深入,国际遗传谱系学会(ISOGG,International Society of Genetic Genealogy)成立,其主要的任务是向遗传学家推广Y-SNP遗传标记,提供研究解决方案。详细的遗传结构树可以参考该学会子网站─https://isogg.org/tree/index.html。
图1 遗传结构树,引用自Mark A. Jobling等人工作
在Y-SNP单倍群遗传结构树基础上,通过比较Y-STR的步长差异可以计算相应的单倍群分化时间,以O单倍群为例,其共祖时间约为3-4万年前,即现代社会所有属于O单倍群的男性个体在3-4年前来自同一家系。以此类推,O单倍群下的各个细支也有各自的出现时间,如O1出现在约23400年前;O2出现在约24700年前[4]。近期,经过对Y-SNP在法医遗传学的实战应用探索,作者所在课题组总结出了如图所示的应用策略(图2)。首先,(1)根据Y-SNP单倍群和Y-STR单倍型之间的高度连锁性,我们研发了一款名为“EA-YPredictor”软件,可以对未知样本的Y-SNP单倍群进行预测[5];(2)结合预测的Y-SNP单倍群信息和前期已调查出的单倍群地理分布,可圈定出目标个体所在家系的来源地范围;(3)以ARMS、SNaPshot和毛细管电泳等测序技术对样本的Y-SNP单倍群信息进行实验验证;(4)研发了一款家系标记系统panel(Y-SNP Pedigree Tagging System),为数据库Y-STR单倍型添加单倍群标签,提高家系筛选的可靠性[6]。
图2 Y-SNP应用策略总结
EA-YPredictor软件的工作原理如图3所示。根据Yfiler中包含的17个Y-STR单倍型数据,计算未知个体与数据库中513个已知个体的单倍型遗传距离,随后选出遗传距离最低的两个样本并以其Y-SNP单倍群对未知个体的单倍群进行推测。该软件虽然尚未开源,但本课题组对于案件需求的使用持开放态度。2019年,受江苏省某地警方邀请,本课题组对某积案的嫌疑人样本进行推断,推测结果为O2a2b1a2-F444分支,该单倍群主要分布在黄河中下游,集中分布在山东省和江苏省等东部沿海地区,具有“东部为最高、北高南低”的分布特征。2020年初,在多方努力下,该案件破获并证实个体来自江苏省某市,且其家系旁支在山东省也有分布。
图3 EA-YPredictor软件算法流程图
在Y-SNP实验验证层面,本课题基于两点考虑:已广泛建立的DNA实验室学习并掌握了成熟的STR基因座分型技术;SNP分型技术中SNaPshot技术耗时较长,NGS技术成本相对较高。突变扩增系统(ARMS,amplification refractory mutation system),又称为等位基因特异性扩增法(ASA,allele specific amplification)可以将Y-SNP分型需求嫁接到现有的常规STR检测平台,每批次测序时间为4.5h。第一代系统所选择的24个Y-SNP位点如图4所示。该panel既能覆盖大多数Y进化树大支,以确保获取单倍群分布概况,也针对中国人群占主体的O大支,均匀地增加了一些高分辨率的位点,提高其实战应用价值。
图4 Y-SNP Pedigree Tagging System panel
此外,该系统也可在数据库建设中发挥不可替代的作用。在Y-STR数据库比对中,我们常常会遇到相似单倍型的情况,缺乏可靠的科学证据以佐证已确定的家系排查范围。如图5,我们将所有中华男性家系类比为一棵大树,其各个枝干就是不同的单倍群分支,而分支上的每片树叶即为男性家系。当我们只比对出与目标Y-STR单倍型相似的若干个家系,这些家系有时可能位于大树的不同分支。而Y-SNP家系标记系统的数据库应用正是为了解决该问题。理论上,Y进化树上的每片树叶(男性家系)都拥有特征性单倍群信息,在Y-SNP单倍群精细分支相关的数据库已建立和Y-SNP分型方法成熟的双重前提下,未知个体的家系确定可靠性和科学性将得以实现,从而实现未知个体在全国范围的精确家系搜索(图6)。需要强调的是,这个数据库建设的设想应建立在具有代表性的父系群体单倍群数据被广泛积累和高通量分型技术高度成熟并经济适用的前提下。
图5 Y-STR数据库比对类比
图6 未知个体的全国家系搜索策略
【1】Cann, R. L., Stoneking, M., & Wilson, A. C. (1987).Mitochondrial DNA and human evolution. Nature, 325, 31-36. doi:10.1038/325031a0;Vigilant L, Stoneking M, Harpending H, Hawkes K,Wilson AC. African populations and the evolution of human mitochondrial DNA.Science. 1991;253(5027):1503-1507. doi:10.1126/science.1840702;【2】Ke Y, Su B, Song X, et al. African origin of modern humans in EastAsia: a tale of 12,000 Y chromosomes. Science. 2001;292(5519):1151-1153.doi:10.1126/science.1060011;【3】Jobling MA, Tyler-Smith C. The human Y chromosome: an evolutionarymarker comes of age. Nat Rev Genet. 2003;4(8):598-612. doi:10.1038/nrg1124;【4】Yan S, Wang CC, Zheng HX, et al. Y chromosomes of 40% Chinesedescend from three Neolithic super-grandfathers. PLoS One. 2014;9(8):e105691.Published 2014 Aug 29. doi:10.1371/journal.pone.0105691;【5】YINCaiyong, SUN Hui, ZHOU Huaigu, JIN Li, LI Shilin. EA-YPredictor: One NewSoftware Developed to Predict Pedigree Haplogroup Based on Y-STR Haplotypes.Forensic Science And Technology, 2020, 45(2): 117-124;【6】Yin C, Ren Y, Adnan A, et al. Title: Developmental validation of Y-SNP pedigreetagging system: A panel via quick ARMS PCR. Forensic Sci Int Genet. 2020;46:102271;