-
SNP分型的关键难点:高同源区段类型解析
发布时间: 2025-11-11 点击次数: 138次高等动植物基因组中含有大量高同源序列,例如人类基因组中高度重复序列占比就超过50%。这些序列给SNP分型带来显著挑战,主要包括以下几类高同源区段:
1.亚基因组
多倍体生物中,由不同祖先基因组分化形成的同源染色体组,保留独立基因簇,但存在高度同源序列。植物和鱼类等生物由于远缘杂交或染色体加倍具有异源多倍体(亚基因组)。常见的小麦和鲤鱼就是天然多倍体。
2.假基因
基因组中与功能基因(称为“编码基因")序列相似,但失去了编码蛋白质的能力的DNA片段。如人血红蛋白ψβ1含多个终止突变;人磷酸甘油酸激酶ψ1则是因为mRNA逆转录插入缺失启动子。
3.重复序列
还有一类是重复序列(主要是转座子)SNP变异,分析这些内部SNP可以追溯重复序列扩增的历史时序,区分功能性拷贝与缺陷拷贝。
4.同源基因
基因家族序列同源性很高,通过常规测序或比对难以精确定位到具体哪个成员。但在进化过程中会积累成员特异性的SNP,可以用来精确区分,确定某个序列读长或变异来源于哪个特定成员。人和小鼠的P450基因家族是直系同源(物种分化形成),而人HLA基因家族则是旁系同源(基因复制形成,功能可能分化)。
高同源区段SNP检测存在诸多难点。如下图所示,常见技术的PCR引物难以区分高同源区段,易出现非特异性扩增/杂交等问题。




产品分类

