连细胞内有什么都没弄明白 研究借助AI找到大量未知胞内蛋白
时间:2021-11-25 15:13:34 热度:37.1℃ 作者:网络
如果现在让你想象一下细胞内部的结构,你的第一反应或许是高中生物教材给出的彩绘图,不同颜色描绘着不同的细胞器,例如线粒体、内质网和高尔基体。
但细胞内部的复杂结构远远超过了这些示例所描绘的景象,甚至我们未知的亚细胞结构可能比已知的还要多。《自然》上展示的一项新研究通过人工智能(AI)的帮助,让我们见证了更多全新细胞结构的存在,并且得出了一个结论:我们现在对细胞内部仍是一知半解。
▲课本上的细胞内部图和新概念细胞内部图(图片来源:OpenStax/Wikimedia & UC San Diego Health Sciences)
当下,想要看清楚细胞内部的细节主要依靠两种途径:荧光显微成像和生物物理联系,前者通过给蛋白带上荧光标记物,然后在显微镜下观察蛋白的位置和联系。后者则包括亲和纯化和质谱技术,需要使用抗体将特定蛋白拉出细胞,最后分析蛋白上还结合着哪些分子。
两种方式分别产生了包括大量细胞细节的数据库——人类蛋白质图谱(HPA)和BioPlex,但它们又有着各自的区别。显微成像可以观察到微米级别的水平结构,让我们看到和细胞器相关的蛋白标志。生物物理联系则可以找到蛋白与蛋白之间的相互作用和纳米级的细节。
如何结合两者的优势,解决不同水平的差异来展现更多的细节呢?
《自然》的新研究给出的答案是使用AI,研究者设法将HPA和BioPlex的蛋白数据集合到一起,然后加入了深度神经网络。在机器学习过程中,它会将亚细胞分布或互作上相近的蛋白置于同一区块中。然后AI需要不断重复学习,对蛋白与蛋白之间的距离进行计算分析,最后形成一张多水平整合细胞图谱(multi-scale integrated cell 1.0,MuSIC 1.0)。
由于HPA和Bio Plex的数据部分都是基于人类肾细胞系HEK293获得的,因此研究选择了用这一细胞系的数据来测试AI的功能。他们一共获取了661种蛋白数据,AI按照蛋白间距离从小到大的顺序,首先找到具有强相似性的蛋白社群,随后再找到蛋白间从强到弱的联系,并以此对蛋白进行分区。最终的MuSIC 1.0版本共在HEK293找到了69个蛋白社群。
▲新研究按照蛋白距离水平给出的不同蛋白社群(图片来源:参考资料[2])
比如AI通过分析两部分数据库将一个催化前的剪接体放置在了48 nm蛋白社群中,此外AI还分析出这个蛋白下的两个亚单位U1和U2分别为8 nm和33 nm。研究通过冷冻电镜确定了这一预测结果与实际相差不大。
▲预测的蛋白单位和实际几乎一样(图片来源:参考资料[2])
除此之外,AI找到的这近70个蛋白社群中,几乎有一半是我们从未发现过的,比如有一组蛋白能够形成一种未发现过的结构。
许多疾病的根源都是细胞内部的功能混乱,无论是蛋白表达异常导致的肿瘤,还是线粒体异常导致的代谢性疾病,都有许多细节等待人们去发现,前提是我们能清楚地知道细胞内部有哪些蛋白和分子,这样才不会错过一些关键的线索。
MuSIC现在并没有分析每个蛋白所处的具体位置,因为它们所处的位置可能是流动性的。
注:原文有删减
参考资料:
[1] We might not know half of what’s in our cells, new AI technique reveals. Retrieved Nov 24th, 2021 from https://www.eurekalert.org/news-releases/935756
[2] Yue Qin, Edward L. Huttlin, et al. A multi-scale map of cell structure fusing protein images and interactions. Nature. DOI: 10.1038/s41586-021-04115-9