跨越生物信息学“数据鸿沟”,解码基因储存的奥秘
时间:2022-11-26 18:00:52 热度:37.1℃ 作者:网络
英国曼彻斯特大学的计算和进化生物学家凯西·伯格曼(Casey Bergman)在其撰写的《选择读生物信息学/计算生物学的博士或博士后的N大理由》写道:计算是21世纪生物学研究的核心技能。生物正越来越变成一门定量的科学。在过去的三个世纪里,生物学从一门观察性科学转变为实验科学,并即将变为一门数据科学。
的确,生物信息学是一个典型的BT(生物技术)+IT(信息技术)产业。基因组测序、蛋白质组学、代谢组学等先进组学技术在生命科学研究和人类健康领域的应用,将生物信息转化为数字信息。我们掌握的数字工具越是先进,就越能高效便捷地探索基因奥秘,从而处理与个体疾病表型相关的所有数据,并最终明确各因素的相关性和混杂性。
在大数据、人工智能和高性能计算逐渐融合的趋势下,面临海量生物数据的生物信息学领域虽然存在着“数据鸿沟”,面临着诸多挑战,但也为行业发展带来新的机会。
生物信息的数据存储挑战
数据显示,基因研究产生的数据以每12-18个月10倍的速度快速增长。以基因测序为例,一台测序仪两天产生100多TB数据,不仅要将这些数据快速存储,还要在分析环节快速读取,最后组装成完整的基因图谱,这都离不开数据存储系统。
11月16日,存储性能评测最权威的国际排行榜——IO500最新榜单发布,中国厂商中科曙光自研的ParaStor分布式存储系统斩获本届冠军,表明曙光自研ParaStor存储系统已达世界领先水平。IO500上榜系统中,很多存储系统都应用于生物信息、自动驾驶、气象模拟等复杂科学和商业场景。
本届榜单也引起了生物信息领域的关注。生物信息学数据来自于大量生物样本、科研中间数据和实验结果,必须借助计算机将其从生物信息转化为数字信息,才能为研究人员所用。海量生物数据的存储、读取、挖掘处理都面临着机遇与挑战。
哪里有数据,哪里就会有存储。某种程度上,存储系统是生物信息学的一个重要支撑,它既是生物数据的起点,也是其经过全生命周期处理之后的终点。因此,生物信息学对存储的需求也水涨船高。
具体来看,生物信息对存储系统至少有三个层面的要求:
· 稳定性,生物信息行业应用程序众多,对存储有多样化需求,作业持续时间较久,存储系统的稳定性至关重要;
· IO读写效率,面对顺序的IO读写和随机小IO读写,存储系统应能发挥出最佳水平,提高作业效率;
· 弹性易扩容,存储系统要支持大容量存储空间和百亿级文件规模,且性能和容量随业务增长按需平滑扩展。
生物信息学的数据类型主要是文本文件、图像文件、二进制文件等非结构化数据,通过多次的、多工作组的科学计算,这些数字信息如同开采金矿一样,等待被挖掘出价值。
曙光ParaStor系统的数字化力量
工欲善其事,必先利其器。数据存储系统的稳定性、IO读写效率和弹性扩展能力,推动着生物信息学的不断发展与创新。
正如IO500榜单呈现的,近年来,数据存储领域竞争激烈,每年都有新面孔出现,并且一出现就打进前五名的不在少数。榜单历届冠军都具有多年存储核心技术的自研积累和技术创新能力,覆盖国内外一流厂商、高校和科研机构。今年则尤其激烈,前四名均是全新成绩,曙光ParaStor一举将世界纪录提高146%,大幅领先第二名,背后是曙光对存储系统全栈技术研制、优化和创新能力的体现。
以生物信息领域为例,曙光ParaStor通过Scale-Out横向扩展、IB+RDMA高速互联、内核态POSIX协议、智能SSD Cache及小文件聚合等技术,消除传统的Scale-up纵向扩展存储架构的性能局限性,有效解决基因测序应用中,对海量大文件存储场景高聚合带宽、小文件存储场景高IOPS的存储需求。
实际上,作为核心信息基础设施领军企业,中科曙光深耕医疗领域多年,一直为生物信息领域提供数字化助力。曙光ParaStor存储系统以极致性能,通过提升医疗数据检索、统计分析、图形化呈现在内的大规模数据挖掘能力,支持“转化医学”的医疗、科研人员进行总结和探索性的科研工作。目前,曙光ParaStor已为北京天坛医院、上海市疾病预防控制中心等单位提供存储产品与解决方案,支持医疗影像、二代基因测序、靶向药品研发等应用的稳定运行。
例如,曙光ParaStor已成功为上海交通大学医学院附属瑞金医院建设“临床资源分析和挖掘测序平台”,以患者生理生化指标,器官影像检查、家族遗传背景等多维度的数据为基础,结合基因组测序、蛋白质组学和代谢组学等各种先进组学检测等技术,通过生物信息学手段进行综合数据分析和挖掘,提供与疾病诊断和治疗相关的遗传和临床信息。形成特征数据后,再通过机器深度学习和人工智能等方法,实现真正意义上的精准分析、辅助诊断和个性化医疗。
用数字存储系统,解码基因储存的奥秘。学科的交叉与融合,信息技术之于生物信息的广阔前景,为产业研究打开了新的通路。希望中科曙光能够持续创新技术与产品,为更多生物医学研究领域客户提供有效的性能保证和技术支持。