FCM与K-mer在基因组估算中的比较:替代还是互补?
流式细胞术(FCM)因其具有标准化流程、操作简便和高可靠性的特点,长期以来被视为植物基因组大小估算的主流方法。然而,随着测序技术的发展,K-mer分析作为一种基于测序数据的估算手段迅速崛起,可同时提供杂合度、重复序列等多种基因组结构信息,逐渐成为研究热点。两者在精度、适用范围及数据要求上存在显著差异,在基因组结构复杂的物种中尤为明显。
黄杞属(Engelhardia)作为胡桃科典型的热带树种,物种分化明显但基因组研究基础有限,是探索不同估算方法适用性的理想对象。该研究以黄杞属5个代表物种为研究材料,系统比较了流式细胞术与K-mer分析在基因组大小估算中的准确性与局限性,旨在为非模式植物基因组大小估算方法的选择提供实证参考。对此,中国科学院西双版纳热带植物园(以下简称“版纳植物园”)植物系统发育与多样性保护研究组开展了相关研究。
研究表明K-mer分析不仅可同时提供基因组大小(724–1,130 Mb)、杂合度(0.45%–1.08%)与重复序列比例(13.8%–58.3%)等多维度的基因组特征信息(图1a-e),还能适用于无新鲜组织样本、仅有测序数据的情况,尤其适合缺乏细胞学数据的非模式植物研究。但该方法存在以下局限性:1.在高杂合度物种(如E. spicata各变种及E. roxburghiana)中,因异源位点引发次级K-mer峰易被误判为主峰,导致基因组大小显著低估;2.在重复序列比例高的物种(如E. fenzelii,重复比例高达58.3%)中,K-mer分布图形主峰扁平或模糊,模型拟合偏低,从而导致基因组大小高估;3.估算结果高度依赖K值(k-mer长度)等参数设置,K值越小越可能高估重复序列比例,且模型R²值与残差也受到显著影响。
相比之下,FCM方法结果稳定(800–870 Mb)、重复性好(图2a-e),并在标准化条件下能精确地反映细胞核DNA含量,尤其是E. roxburghiana FCM测值与高质量参考基因组组装大小(884.78 Mb)高度吻合(差距<4%)。但FCM也存在局限:需使用新鲜组织或精细保存的细胞核;染色条件(如PI染料)、内标植物选择及样品中次生代谢物均可能干扰结果。
研究最终指出,FCM操作简便、成本低廉,依然适用于非模式植物中基因组大小的初步评估;K-mer方法则在拥有高质量测序数据时能提供更丰富的结构信息。两种方法在各自优势基础上,应依据具体研究目标进行互补整合,以提高基因组大小估算的准确性与实用性。研究的核心在于挑战了“K-mer分析全面优于 FCM”的技术偏见,提出方法选择应基于研究目标:FCM 适合快速、准确的初步估算,而 K-mer 分析可在高质量测序数据支持下,补充基因组结构与复杂度信息。对于黄杞属这类缺乏基因组资源的非模式植物,整合两种方法才能实现准确的基因组大小估算。相关研究以Is it time to abandon the flow cytometry in estimations of genome size when the K-mer analysis is available?The case of Engelhardia species为题发表于Genomics Communications上。版纳植物园植物系统与多样性保护研究组硕士研究生李敏为该文的第一作者。孟宏虎副研究员、李捷研究员和兰州大学生态学院武生聃教授为该文通讯作者。该研究得到了国家自然科学基金、“西部之光”人才计划、云南省“兴滇英才支持计划”以及中国科学院东南亚生物多样性研究中心的资助。
图1
图2