Genome Biol:中山大学李淼新团队发表基于三代测序的结构变异(SV)检测流程综合评估结果
时间:2024-08-08 18:01:46 热度:37.1℃ 作者:网络
结构变异(SV)指基因组中长度超过50bp的变异,属于基因组变异的一大类。SV 的类型通常包括DEL(缺失)、INS(插入)、INV(倒置)、DUP(重复)、TRA(易位)和复杂SV。SV增加了人类基因组的遗传多样性,可能影响基因或调控区域,从而导致表型变异或疾病易感性。第二代测序(SGS,又称NGS)技术由于读取长度有限,往往难以准确识别SV。第三代测序技术(TGS)能够产生长读数,有望更准确地检测SV。
当前已开发出多种基于TGS的SV检测方法和工具,大多数都建立在SV检测的比对策略上,一个SV检测流程(pipeline)通常包括一个比对工具和一个调用器。目前有五种常用的长读取比对工具(包括LRA、minimap2、NGMLR、pbmm2和winnowmap)。与此同时,调用工具也在不断发展,例如cuteSV、cuteSV2、DeBreak、DELLY和SVision。由于SV的复杂性和TGS数据中的噪声,基于不同假设和模型的工具在SV检测中往往表现出不同的性能和相对较低的一致性,因此从TGS数据中准确检测出所有SV位点和基因型对大多数现有工具来说仍然是一个巨大的挑战。
为解决上述挑战,中山大学李淼新团队利用PacBio(CLR: Continuous Long Read, CCS: Circular Consensus Sequencing)和Nanopore(ONT)平台的模拟和真实数据,对53个SV检测流程在检测不同大小和类型的SV、断点偏差和不同测序深度的基因分型准确性方面的性能进行了综合评估。分析发现,将多个流程与相同的比对工具(如pbmm2或winnowmap)相结合可以显著提高性能。该研究以“Comprehensive and deep evaluation of structural variation detection pipelines with third-generation sequencing data”为题发表在Genome Biology。
文章发表在Genome Biology
模拟数据集和实际数据集中的SV检测流程性能
研究团队评估了53个SV检测流程的性能,由5个比对工具和12个调用器建立。将来自公共数据库的SV数据作为评估数据集的基准(PacBio:CCS、CLR;Nanopore:R9.4、R10.4),使用Visor模拟TGS数据。
在模拟数据中,26个流程的F1值超过3.5,表明其性能优越。基于F1值的前10个流程中,有8个流程在DUP_INS和非DUP_INS情景下表现一致,这种高度一致性表明,大多数流程的相对性能可能不会受到DUP和INS事件错误分类的显著影响。在实际数据中,有26个流程的F1值(DEL和INS变异检测)超过1.65,在26个高性能流程中,不同调用器的分布情况包括 cuteSV(19.2%)、cuteSV2(19.2%)、Sniffles2(15.4%)、SVIM(15.4%)、SVision(15.4%)、DeBreak(11.5%)和 NanoVar(3.8%)。在比对工具方面,minimap2(26.9%)、pbmm2(23.1%)、winnowmap(23.1%)、LRA(15.4%)和NGMLR(11.5%)是这些流程中的典型代表。实际数据总体趋势与模拟数据中观察到的趋势一致,cuteSV和cuteSV2显示出更高的精度,SVision显示出更高的召回率。
图1.SV检测流程在不同SV类型(CCS)中的性能
SV调用断点和长度的准确性
研究团队使用Truvari评估了断点偏差。在模拟数据中,大多数流程的SV断点偏差在- 50至50bp范围内均能检测到。对于DEL变异,Sniffles和Sniffles2调用器断点检测最准确,错误最少,表现优异。联合Pbsv流程分析表明,90%的INS变异断点偏差集中在−10至10bp之间。对于INV SV,使用Sniffles2、Picky和SVIM调用器的流程显示出高比例的零断点偏差,范围为30%到40%。最后,对于DUP变异,使用cuteSV、cuteSV2、Sniffles、Sniffles2、NanoSV和Picky调用器的流程显示出更高比例的零断点偏差,范围为40%到60%(图 2)。
图2.不同SV类型(CCS)中SV检测流程的性能
随后,研究人员分析了SV的长度偏差。在模拟数据中,使用cuteSV、cuteSV2和DeBreak调用器的流程检测出SV大小偏差为零的DEL比例最高,约为40%。其次是Sniffles2、SVIM和SVision流程,比例在20%到30%(图 3)。在实际数据中,使用cuteSV、cuteSV2、DeBreak、Sniffles2、SVIM和SVision调用器的流程表现出色,检测到40%到60%的SV大小偏差为零的DEL。
图3. SV检测流程的SV尺寸偏差
特别地,SV的长度会影响流程检测到的SV的大小和断点偏差。在模拟数据中,对于DEL变异检测,当SV长度超2.5kb 时,LRA-cuteSV、LRA-cuteSV2、wnowmap-cuteSV、wnowmap-cuteSV2、LRASVision、minimap2-SVision和winnowmap-SVision等流程会表现出更大的SV大小检测偏差(图 4)。在模拟数据的INS变异检测中,在SV长度>2.5 kb的情况下,流程检测到的INS长度偏差往往比DEL更大。同样,流程中的断点偏差也受SV长度的影响。与其他检测流程相比,使用比对工具NGMLR和LRA的流程检测到的DEL和INS的断点偏差在10到50bp和-10到-50bp之间的比例更高,而且这些偏差受SV长度的影响更大。
图4.不同流程中DEL的SV长度范围和长度偏差分布
SV基因型识别的准确性
在SV的遗传和功能研究中,SV基因分型的准确性以及区分SV基因位点的能力至关重要。研究人员从基因型一致性的角度评估了SV调用器的性能(图2)。在模拟数据集中,pbmm2-pbsv在五种类型的SV中表现出最高的累积F1测量值(~3.6),在评估中成为顶级基因型调用流程(图2)。此外,使用cuteSV、cuteSV2、DeBreak、pbsv和Sniffles2等调用器的流程在SV基因分型准确性方面也表现出很强的性能(F测量值> 3)。实际数据的评价结果与模拟数据的评价结果基本一致,使用cuteSV、cuteSV2和Sniffles2等调用器的流程在实际数据中显示出DEL和INS变体的高F1测量水平(F测量值> 1.6)(图2)。
不同检测流程的MIER水平
研究者进一步比较了不同流程的MIER,以评估其基因分型结果的准确性。结果表明,调用器是影响MIER水平的主要因素。总体而言,接受评估的流程MIER水平低于 10%,一些表现出色的流程MIER水平达到2%左右(图 5)。具体来说,在检测DEL方面,使用cuteSV2、Sniffles2、SVIM和SVision调用器的流程MIER水平低于2%。对于INS变异基因分型,使用SVIM和SVision调用器的流程显示出较低的MIER水平(约 2%)和稳健的性能(图 5)。
图5.谱系中SV检测流程的MIER
合并流程结果以提高性能
部分研究采用多种流程或算法的组合来提高SV调用的检测精度。但基于TGS数据的多流程合并优化策略尚未得到系统研究。为此,研究团队计算了由2个、3个和4个独立流程组成的合并流程的准确性、召回率和中位数F1分数,并针对不同的SV类型(DEL、INS、INV、DUP)采用了不同的合并策略(图6)。具体来说,为了评估比对工具和调用器对合并结果的影响,将流程组合分为两组:具有相同比对工具但不同调用器的流程(基于调用器的组合组)和具有相同调用器但不同比对工具的流程(基于比对工具的组合组)。
结果显示,在模拟数据中,合并流程的性能提升比在实际数据中更为明显(图6),基于调用器和基于比对工具组合的增强非常相似。但在实际数据中,这两组仅表现出轻微的差异。此外,根据合并流程的数量选择合适的合并策略(合并或交叉)是至关重要的。当流程数量较少时,例如2个,使用联合策略可能比交叉策略产生更显著的改进。相反,如果使用3个或更多的流程,交叉策会略微增强性能(图6)。
图6.与组成组合的单个流程相比,前10个组合流程中不同SV类型的F1、召回率和精度
综上所述,该项研究是迄今为止基于TGS数据的基因组SV流程最广泛的评估。分析表明,相比于比对工具的选择,调用器的选择对SV检测流程的准确性影响更大。比对工具可严重影响SV信号的存在、位置和强度,但调用器对于聚类SV信号、过滤信号和识别SV类型是必不可少的,这些对于SV检测至关重要。SV检测流程的适用性在很大程度上取决于各种因素,如特定SV类型、偏差和基因分型准确性,因此,不存在普遍适用的最佳流程。研究人员可通过http://pmglab.top/SVPipelinesRanking选择合适的流程。总的来说,该研究为改善TGS数据中的SV检测提供了有价值的见解,并为SV注释和功能预测提供了信息。
此外,由于资源限制,该研究只使用了少数公开可用的数据集,这可能会限制研究结果的普遍性,未来的研究应纳入更大、更多样化的数据集,以提高结果的可靠性和普遍性。
论文原文:
Liu, Z., Xie, Z. & Li, M. Comprehensive and deep evaluation of structural variation detection pipelines with third-generation sequencing data. Genome Biol 25, 188 (2024). https://doi.org/10.1186/s13059-024-03324-5