【译】使用Spark SQL 运行大规模基因组工作流

  1. 云栖社区>
  2. 阿里云E-MapReduce(EMR)>
  3. 博客>
  4. 正文

【译】使用Spark SQL 运行大规模基因组工作流

阿里云E-MapReduce团队 2019-07-15 10:29:41 浏览8430
展开阅读全文

原文链接:

https://databricks.com/blog/2019/06/26/scaling-genomic-workflows-with-spark-sql-bgen-and-vcf-readers.html

编译:

诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

使用Spark SQL 运行大规模基因组工作流


image

在过去十年中,随着基因组测序价格下降,可用基因组数据的数量逐渐激增。研究人员现在已经能够从英国生物银行等项目的数十万人群中探测遗传变异和疾病之间的关联。这些分析将使人们更深入地了解疾病的根本原因,从而治疗当今一些主要的疾病问题。但是,目前用来分析这些数据集的工具还没有跟上数据增长的步伐。

许多用

网友评论

登录后评论
0/500
评论
阿里云E-MapReduce团队
+ 关注
所属云栖号: 阿里云E-MapReduce(EMR)