云场景实践研究第80期:华大基因

本文涉及的产品
云服务器 ECS,每月免费额度280元 3个月
对象存储 OSS,20GB 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 作为全球最大的基因组学研究中心,华大基因在阿里云的帮助下,实现了海量数据的及时获取、快速分析、安全储存。本文将带领大家一同了解华大基因的基于大数据分析的云计算实践之路。
更多云场景实践研究案例,点击这里: 【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽
作为全球最大的基因组学研究中心,华大基因在阿里云的帮助下,实现了海量数据的及时获取、快速分析、安全储存。本文将带领大家一同了解华大基因的基于大数据分析的云计算实践之路。
基因组学数据是“天然”的大数据,计算分析的价值会超过测序本身,与云计算和大数据技术的结合是行业的需要。
——黄泽辉
华大基因 BGI Online 产品总监

采用的阿里云产品
阿里云云服务器 ECS
阿里云对象存储 OSS
阿里云归档存储 OAS
阿里云专有网络 VPC
阿里云DDoS高防IP (云盾)
阿里云大数据计算服务 MaxCompute
阿里云 E-MapReduce
阿里云批量计算服务 BatchCompute

为什么使用阿里云
通过使用阿里云平台,不仅降低了数据分析门槛,用户也可直接在线上简单操作即可完成启动分析。
借助阿里云云计算,解决数据存储、传输、分析、安全问题。

关于华大基因
华大成立于1999年,是全球最大的基因组学研发机构。华大以“产学研”一体化的创新发展模式引领基因组学的发展,通过遍布全球的分支机构与产业链各方建立广泛的合作,将前沿的多组学科研成果应用于医学健康、农业育种、资源保存等领域,推动基因科技成果转化,实现基因科技造福人类。

华大基因痛点
随着生命科学领域数据爆炸式的增长,如何及时获取、快速分析、安全储存这些庞大的数据是华大基因急需解决的问题。

为什么选择阿里云?
通过阿里云平台降低数据分析门槛、简化用户操作
人一生的基因数据的管理和存储数据量相当庞大,而华大基因提供的基因快速检索和查询,涉及到基因数据在数据分析中的降维过程。过程中数据密集型和CPU密集型的计算分析任务,计算能力要求高,结果文件种类繁多,数据非结构化,不利于数据挖掘和可视化。目前使用了多地测序中心,用户分布广泛,数据共享和传输困难。
传统方案是基于大型计算设备和存储设备购买来解决,出于成本和服务器跟进速度的考量,华大基因 BGI Online 则搬到了云上,并且在分析层面上给用户定制化和个性化体验。不仅降低了数据分析门槛,用户也可直接在线上简单操作即可完成启动分析。

借助阿里云云计算,解决数据存储、传输、分析、安全问题
BGI Online作为大规模生物信息的分析平台,堪称基因行业的“应用市场”。依托部署在阿里云计算平台的服务,BGI Online更轻松地拥有了处理大规模基因组数据分析的能力。
f439ce6ad1b9a21c8a4ac66047b70234a3687e03
基于BGI Online的基因数据分析需求,华大基因在阿里云平台上,设计了计算资源弹性伸缩、多级存储、海量存储计算与数据安全的云平台架构。
通过专线接入,来传输测序中心几十TB/day的数据;通过平台多数据中心部署,计算能力放至数据所在地,为美国、欧洲与中国等提供测序;混合使用阿里云的多种计算服务,数据通过 OSS来互通。通过 ECS在线上高灵活度地输出基因测序、利用 批量计算测序可大规模降低成本、 MaxCompute实现MapReduce小时级测序。
8ea651bf8e938865b3e883b2b7d2998a0657e2be
合作过程中,阿里云为华大基因提供了企业级支持服务和专家服务,保障华大基因的云上业务搭建与运转。包括指导产品选型与使用技术、提供APM报告及相应性能的分析优化;排查整改系统安全隐患、对生产高峰的任务支持进行专门保障。从曾经三四天才能输出一人基因分析,到如今实现了22小时内达成千人基因组分析的人类梦想。

华大基因通过阿里云为BGI Online(安全、⾼效、易⽤的⽣物信息服务云平台,为⽣物信息领域的各类科研工作者和工具开发者提供便利)注入弹性,同时也释放了每个数据中心部署耗费的大量人力、财力和物力,其总体架构如下:
a757a14aa3cbe7ebc85fd7f2999a23004f861a87
前端通过WEB服务呈现系统业务和提供用户操作,WEB请求通过SLB做负载均衡,并在阿里云提供的VPC和云盾的防护下提供高可用的服务。
后端管理系统的业务数据和处理业务逻辑,后端服务部署在多台ECS上,并采用RDS服务存储业务数据。
任务管理引擎接受前端请求,管理计算资源实现生物信息数据的分析,阿里云提供了海量的ECS节点,并对每个ECS节点提供了完整、详细的API文档,通过对接ECS节点实现了计算资源的弹性伸缩和强大的分布式计算能力。
存储管理负责基因数据的存储和管理,运用OSS和OAS实现了基因数据的冷热存储,除了OSS和OAS本身提供的加密存储外,还对接OSS服务实现数据的去身份化,提高了平台的安全性。
文件传输通过部署在ECS上的服务提供,庞大的基因数据上云是数据流的起始端和瓶颈,阿里云通过铺设阿里机房到华大集群的专线,提升了数据传输的速度。

迁移上阿里云后的成效
实现了用户定制化和个性化体验,不仅降低了数据分析门槛,用户也可直接在线上简单操作即可完成启动分析。云上业务搭建与运转获得了保障,包括指导产品选型与使用技术、提供APM报告及相应性能的分析优化。在2016年,基于华大基因开发的新一代基因云计算平台BGI Online,华大基因、阿里云和安徽医科大学三方共同协作在21小时47分12秒内完成了1000例人类全外显子组数据的分析,创造了基因数据分析的“深圳速度”。

原文发布日期:2018-1-10
云栖社区场景研究小组成员:董普庆,仲浩。
相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
亚马逊云科技 云技能孵化营 初识机器学习
亚马逊云科技 云技能孵化营 初识机器学习
|
监控 BI 分布式数据库
云场景实践研究第81期:大搜车
2017云栖大会HBase专场,大搜车高级数据架构师申玉宝带来阿里云云数据库HBase在大搜车金融业务中的应用实践。本文主要从数据大屏开始谈起,进而分享了GPS风控实践,包括架构、聚集分析等,最后还分享了流式数据统计,包括数据流、数据合流和服务监控等。
2005 0
|
分布式计算 大数据 关系型数据库
云场景实践研究第83期:众安保险
当传统保险公司还在将“开门红”作为重中之重提前几个月做准备的时候,互联网保险公司关注的则是“双十一”和“双十二”。2017年双十一当日,刚刚在香港上市的众安保险的保单量突破3亿,比2014年增长超过200%。阿里云所输出的服务,则在帮助基础设施建设发挥“乘数效应”。
1890 0
|
新零售 大数据
云场景实践研究第77期:云徙科技
作为阿里生态战略合作伙伴,云徙科技在阿里云的大数据和新技术的帮助下,使企业成功实现数字化转型,并且创造了新的价值。本文将带领大家一同了解云徙科技在新技术、大数据赋能下的转型创新之路。
2996 0
|
安全 云计算 CDN
云场景实践研究第33期:神州优车
神州优车已经使用了阿里云的ECS以及OSS服务以及CDN等非常多的云产品,并且实现了稳定的私有云与阿里云的混合云架构,阿里云在效率质量与成本上的高性价比也为神州优车带来了较高的收益与很好的口碑。
1556 0
|
运维 分布式数据库 Hbase
云场景实践研究第82期:亿方云科技
2017云栖大会HBase专场,亿方云科技CTO 王成军带来HBase在亿方云客户端同步系统中的应用实践的演讲。本文分析亿方云科技在HBase方面的实践,并对亿方云HBase演进和应用作了分享。
1967 0
|
新零售 分布式计算 监控
云场景实践研究第40期:网聚宝
作为阿里云的深度用户,网聚宝的成长和阿里云的成长已经深深交织在了一起,在公开的5个产品技术上总投入资源大约是同类产品的1/5。作为一个中小规模的技术团队,客户已有3000多家品牌。本文将详细解读网聚宝在使用阿里云产品4年的过程中,基于云计算的架构心得。
1966 0
|
运维 关系型数据库 数据库
云场景实践研究第70期:秦苍科技
本文主要为大家分享了秦苍信息科技HTPA型数据库产品在现实中的落地应用,企业级数据库架构设计中遇到的问题以及基于云数据库运维的思考。
1770 0
|
新零售 分布式计算 大数据
云场景实践研究第56期:佰腾科技
作为国内知名的知识产权服务公司,佰腾在专利信息应用上研究多年,一直致力于解决一个问题:让专利信息应用变得大众化。佰腾专利通过大数据平台的演化,利用MaxCompute平台,每纬度数据处理速度由之前的2-3天,缩短到3-6个小时。
1534 0