Nature子刊:李婧翌团队开发用于单细胞多组学和空间组学的数据模拟和统计推断的多功能模拟器scDesign3
时间:2023-05-14 18:47:13 热度:37.1℃ 作者:网络
单细胞基因组学和空间转录组学为人们认识细胞中的分子生物学机制提供了全新的视角。单细胞转录组学RNA-seq技术通过测量细胞的转录组帮助人们识别离散的细胞类型或连续的细胞分化轨迹。其他单细胞组学技术,例如染色质可及性,DNA甲基化和蛋白质丰度,以及单细胞多组学(multi-omics),提供了更加丰富的单细胞分子生物学信息。
与此同时,空间转录组学的出现使得对组织空间中基因表达的测量成为可能,进而成为目前的热点研究。研究者们已经开发了上千种计算方法,用于完成单细胞和空间组学数据各种分析任务;海量的算法这使得算法基准化成为算法开发者和用户面临的紧迫挑战。
由于实际数据缺少“基准真相(ground truth)”,模拟器成为了算法开发和算法比较的必需工具。尽管已有很多模拟器被开发,但它们都有明显的局限。很少有模拟器能够通过模拟真实数据来生成来自连续细胞分化轨迹的单细胞转录组学数据,并且大多数模拟器缺乏模拟多组学和空间转录组学数据的能力。
2023年5月11日,加州大学洛杉矶分校(UCLA)李婧翌团队在 Nature Biotechnology 期刊发表了题为:scDesign3 generates realistic in silico data for multimodal single-cell and spatial omics 的研究论文。该研究开发了一款名为 scDesign3 的多功能模拟器,用于单细胞多组学和空间组学的数据模拟和统计推断。
scDesign3提供了首个泛用的概率模型用于统一单细胞和空间组学数据的生成和推断。scDesign3不仅配备了可解释的参数和模型似然度(likelihood),而且还具有生成定制化的仿真数据的独特优势。scDesign3的定制仿真数据可以作为计算分析的阴性对照和阳性对照。
除此之外,scDesign3提供了基于模型似然度的无监督度量,用以评估从数据中推断的细胞聚类、细胞轨迹和细胞空间位置和数据的拟合程度。scDesign3的概率模型拥有可解释的参数,可以帮助用户探索、模拟和修改数据。
在论文第一部分,研究团队展示了scDesign3的仿真能力,包括生成高度仿真的单细胞连续分化转录组数据,空间转录组数据,染色质可及性数据和其他多种组学数据(图1左)。在第二部分,研究团队展示了scDesign3的数据解释能力,即通过估计其模型的参数来帮助解释真实数据,利用拟合度评估标签质量(例如细胞聚类、细胞拟时序和细胞的推断空间位置)和产生多种用户指定特征的仿真数据(图1右)。
总的来说,scDesign3是一个多功能套件,用于基准测试计算方法和解释单细胞和空间组学数据。
https://songdongyuan1994.github.io/scDesign3/docs/index.html
论文链接: