混合云存储在基因领域的应用

  1. 云栖社区>
  2. 博客>
  3. 正文

混合云存储在基因领域的应用

驻云科技 2018-10-29 15:54:05 浏览1975
展开阅读全文

基因支持着生命的基本构造和性能。储存着生命的种族、血型、孕育、生长、凋亡等过程的全部信息。环境和遗传的互相依赖,演绎着生命的繁衍、细胞分裂和蛋白质合成等重要生理过程。生物体的生、长、衰、病、老、死等一切生命现象都与基因有关。它也是决定生命健康的内在因素。通过基因测序,检测患者的样本基因,通过大数据和相关算法来针对性地推荐用药和治疗方案,从而帮助患者更快的恢复,提高医疗水平。
u_3923032023_3810394718_fm_11_gp_0

人类基因组包含 30 亿个碱基对。做一次全基因组检测,会产生 100 多 G 海量数据,其中能被用于科研与临床应用的,只是蛋白编码基因与少量的非蛋白编码基因,占整体数据的 1%-2% 之间;而这部分数据中,被研究透彻的、能将之与疾病关联后得以应用的,仅占 1%,由于基因数据获取成本高,对未来的深入挖掘非常重要,所有的基因组检测数据不能轻易丢弃。基因测试的过程中会产生大量的数据,如何利用云计算,大数据等技术来解决海量数据的存储,并能快速的从海量数据中提取出关键的信息成为重中之重。

基因领域的需求和痛点

国内某医学公司专注于肿瘤患者个体化治疗指导,以二代测序及医学生物信息学为核心,常规肿瘤分子病理检测为基石,致力于打造肿瘤个体化治疗临床检测服务及科研一站式解决方案。客户目前采用EMC的存储产品,然后转化为FastQ文件在经过计算节点挂载后进行计算,期间有读和写,有中间过程数据,最后将结果写到EMC存储上。目前客户主要遇到如下问题:

  • 海量数据的存储和备份
    基因测序过程中伴随着海量的数据,并且这些数据对业务的分析非常重要,需要长时间保留。目前客户存在EMC存储中,涉及到扩容,数据安全等问题。
  • 数据的分发
    客户分析后产生的报告,某些原始数据都可能会分发给最终用户。目前客户会使用硬盘寄送,FTP等方式将数据下发给最终用户。当前数据量比较大的时候,分发的速度比较慢,而且也会带来下行带宽成本的增加。
  • 存储和维护成本高
    目前客户主要采用EMC存储设备,目前上海和广州共有数十个存储节点。算下每T成本近万元,数据量伴随着业务的发展在高速增长。存储设备的维保期过后,硬件和软件的升级,故障的处理等维保费用非常高。
  • 本地计算能力有限
    客户目前采用Dell的高性能服务进行本地计算,计算能力受到服务器配置的影响,在计算高峰时无法满足计算需求。

驻云混合云存储解决方案

经过双方深入了解需求与痛点,POC,分析和设计,最终驻云利用混合云存储解决方案帮助客户解决基因测序业务中遇到的困难,方案架构图如下:
_2018_10_15_9_43_53

阿里云混合云存储阵列作为软硬一体的存储设备,集成了阿里云存储服务,融合了公共云存 储和传统存储阵列的优点。专为对存储有高性能和稳定性要求,并且希望无缝上云的企业客户而 设计: -支持完备的主机端协议, FC/iSCSI/FCoE, NFS/CIFS, Cinder/Swift 等 - 提供多版本快照,复制等丰富的企业数据服务,数据能按照策略自动同步到云端,实现 数据的云端备份容灾 - 支持自动云分层和云缓存功能,保证数据的高速访问和存储空间的有效利用 - 数据压缩和去重,提升数据在云端和本地存储无缝流动的效率 - 支持数据端到端的AES-256数据加密,保证用户数据的安全性 - 全冗余设计,安全可靠,支持数据中心机架部署。

客户无需改变现有 IT 架构或应用,就可以像使用本地存储一样,使用混合云存储阵列,同时利用本地存储空间和云端存储空间,无需关注本地设备存储协议和云存储协议之间的兼容转换,配置简单,易于使用。

  • 方案价值1:数据存储和备份
    测序仪下机数据先到EMC的存储设备,在通过rsync的方式同步到混合云阵列的NAS,阵列使用云缓存模式将热点数据缓存在本地供业务调用解决高频数据的访问性能,增量数据通过阵列异步同步到OSS,利用OSS的海量存储解决数据存储问题,结合OSS的跨区域复制功能对数据进行云上的异地备份。
  • 方案价值2:数据分发
    数据通过OSS结合CDN进行分发,CDN会将您OSS存储的热点数据分发到全国各地的节点。用户访问时只需访问最近的CDN节点读取文件,而无需访问OSS的源文件,通过专线解决不同地区网络延时问题。
  • 方案价值3:成本降低
    通过混合云存储阵列将测序仪产生的数据存储到OSS中,利用OSS的高性价比使得成本大幅下降,同时也免去了大量硬件的维护成本。
  • 方案价值4:提高计算能力
    阿里云上使用批量计算服务来提高整体的计算能力。批量计算服务适用于大规模并行批处理作业的分布式云服务。BatchCompute可支持海量作业并发规模,系统自动完成资源管理,作业调度和数据加载,并按实际使用量计费。

通过混合云存储解决方案为客户实现了数据在本地数据中心和公共云之间的无缝流动,从而解决客户数据存储,备份,分发等问题,让客户更多的关注业务能力,发挥数据的价值,更好的通过基因测试为患者推荐更好的医疗方案,将云计算,大数据等新一代互联网技术更好的渗透到医疗行业中。

网友评论

登录后评论
0/500
评论
驻云科技
+ 关注