中科曙光支撑生命科学大数据的探索

2019-12-02 21:48 来源:美通社 作者:电源网

 生命科学是通过分子遗传学为主,研究生命活动规律,从而达到治疗诊断遗传病、提高农作物产量、保护环境等目的。生命科学的数据来源和形式多样,包括基因测序、分子通道、不同的人群等。技术的提升引领了IT到DT(数据时代)的变革,基于基因组数据量越来越多的情况下,生命科学大数据的发展前景将更加广阔。利用信息技术将数据转换成更好理解的基础生命科学机制,其分析结果将给人类带来更多福音。

计算和存储是大数据研究中不可或缺的重要技术和支撑,生命科学大数据的研究也不例外。中国科学院上海生命科学研究院(以下简称:生科院),是国家级生命科学研究平台,整体实力和技术水平处于国内领先。的领先除了生物技术之外,信息技术也扮演者重要的角色。在本次项目中,由曙光为生科院建设生物医学大数据信息系统基础平台(以下简称:生物医学大数据平台)。平台建成后将面向生命科学研究、生物医药研发、临床医学研究与应用,推动生物医药技术企业创新发展,支撑数据密集型科学研究和生物信息共享。

安全稳定存储系统,满足生物医学用户需求

生物医学数据的主要类型为文本文件、图像文件、二进制文件等非结构化数据,对存储的要求主要在存储容量的大小和大文件读写通量的高低,此外少量的关键数据库、索引等结构化数据,则对存储的IOPS和稳定读写能力要求较高。

未来,生物医学大数据平台将成为面向生物医学大数据开放研究平台,面向世界的国际数据交流接口和合作研究基地,海量生物医学大数据资源的汇聚、管理和共享,数据的安全性至关重要。

两地三中心架构,打造高可用生物医学大数据平台

生物医学大数据平台基础设施由三个中心组成,分别为张江中心、岳阳路中心和贵州中心,每个中心都需要承载相关的业务系统。三个中心通过科技网链路相互连通,通过同城双活、异地容灾的两地三中心架构,满足生物医学大数据平台业务高可用和高稳定性。


存储系统作为本项目的重要建设内容,分别构建了业务系统存储、高性能存储和大容量存储三类资源,满足业务、计算和海量文件对存储空间和性能的需求。

业务系统存储采用高性能磁盘阵列,以满足业务应用的需求;其中配备缓存加速技术满足生物数据库、云平台等高I/O读写需求。系统配置一套ParaStor分布式存储系统满足海量非结构化生物基因数据的计算需求;其大容量存储采用性价比高的分布式存储,配置Infiniband接口,满足基础海量实验数据的共享和离线备份的需求。

存储系统在保障数据安全的同时还充分考虑的业务系统的稳定运行。在备份系统建设上,采用曙光DBStor备份存储系统和LTO5高速磁带库套件,支持异地容灾和备份系统审计,通过磁带异地存储的方式实现了系统远程容灾。

通过多层次的存储系统设计,方案满足上海生科院生物医学大数据平台海量生物数据存储、计算与共享需求,更具备远程容灾功能,实现生物医学实验数据的集中存储、高效共享和安全保障。为生科院建立具有国际先进水平的科学研究综合数据库,提供了强有力的计算分析能力和信息安全保障。

中科曙光 大数据 生命科学

相关阅读

暂无数据

一周热门

  • 法国电视将采用TVU云+5G/星链的融合性体系化方案直播巴黎奥运火炬传递
    随着盛夏钟声的临近,2024年夏季奥运会火炬传递的征程即将开启。从5月8日起,这束象征和平与希望的火焰,将历时80天,穿
  • 神州泰岳扬帆出海篇(三):泰岳小漫,用流量连接世界
    在东南亚某国际机场的多个航站楼中,分布着众多可以租借小漫WiFi设备的服务柜台。旅客使用小漫WiFi的跨境网络连接服务,
  • Arena 宣布与 AMD 达成合作
    专业 AI 基础模型开发商 Arena 于今日宣布,将与 AMD 展开合作,扩大 Arena Atlas 在 AMD 的