开发者社区大数据文章正文

【Spark Summit EU 2016】使用Spark轻松获取高产量基因组

2017-02-14 1537

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Erwin Datema与Roeland van Ham在Spark Summit EU 2016上的演讲，主要介绍了面对世界人口剧增所带来了粮食危机的巨大挑战，KeyGene公司希望通过基因变异改变农作物的基因来提升农作物的产量，而这一过程需要大数据技术以及高性能计算能力作为支撑，本讲义介绍了如何使用Spark和大数据分析获取农作物的高产量的基因组。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Erwin Datema与Roeland van Ham在Spark Summit EU 2016上的演讲，主要介绍了面对世界人口剧增所带来了粮食危机的巨大挑战，KeyGene公司希望通过基因变异改变农作物的基因来提升农作物的产量，而这一过程需要大数据技术以及高性能计算能力作为支撑，本讲义介绍了如何使用Spark和大数据分析获取农作物的高产量的基因组。

4f0ade571743a94d9a3f9de6f2335158f42c8dab

01af0a771effc92b466358a2ee48f124aa4b5e29

8c8bce5def5c98137563f855c5bcdb28484b9b28

d4372aa8637476b2a762d02d543d6604993f9b64

85daf2e6ba3bb79c6b3056381cc149db0db03ae7

f17dc24d4501015a29daf2bd93cb5f66de61ce63

b861c8050304d909240ac63c99a8e69fffa0b2ff

af1a26b854e38a1693b53caa4b557359644b0b86

71171a34eef4a76fed502c57e8990324fdaf5f62

0accab671e3df66c0541dce47ed9e05732e8fa24

d83dddb3b9972640e1af3d4a8b9b5b6dd36bbdae

cd4e2eb601f596c3c5be5ec5f37b1275c4380b49

fb92aebd5d10f1264aa005ea3ee19640a68e6ee6

92794098e28f986baaa4e757f19e7c771c131c6d

437932c4c238be0210c9f0157a0b97a03dea238e

2c50a06a0a1c91aaf0ef6654b97a166727c50ccc

1781db9696b06df4da998e5d65a27fcd1d6d90db

319273fd97111ee19be2b384f4a366797a33fee2

9f6e8d51ddeeaf2ce501c963e5e57a2a8d0043c6

3802a10f925badb65ae545bf0b2649ffa1266f96

6452dfe282b4d3152a9513356408c2e89f54aaeb

2797c565c2beecc277f55b151c413fce6c5f7e55

12bc3ebdd27690f08e77aa6aa54fce7e860fc691

2c97a8c609eea98aa166ae3be92c66383d2da77b

07175826e986e6411e127e9c246a534099c2469e

73af9e789a5f93589a105e1d0f0eb369c5bfd04b

91d105358eedd99a80714fd9fa92e8107f29f8e7

e7ad99b37004ce808c3f73250a86eea08fcd9f23

文章标签：

云原生大数据计算服务 MaxCompute

大数据

分布式计算

Spark

MaxCompute

关键词：

apache spark summit

apache spark基因组

apache spark summit eu

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

小猫吃鱼569

阿里云E-MapReduce团队

SQL 人工智能分布式计算

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

超乎你想象的干货合集打包带走！

阿里云E-MapReduce团队

22615 0 0

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

阿里云E-MapReduce团队

人工智能分布式计算 Spark

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

阿里云E-MapReduce团队

881 0 0

阿里云E-MapReduce团队

机器学习/深度学习人工智能分布式计算

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

阿里云E-MapReduce团队

1542 0 0

阿里云E-MapReduce团队

分布式计算 Prometheus Kubernetes

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布

阿里云E-MapReduce团队

2129 0 0

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

阿里云E-MapReduce团队

SQL 人工智能缓存

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

在Spark + AI Summit 2020上， Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰，在性能上大幅超越 Presto。在过去几年，我们见过了太多的 benchmark，大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心，可谓及时雨。

阿里云E-MapReduce团队

2449 0 0

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

开源大数据EMR

人工智能分布式计算大数据

Spark + AI Summit 2020 中文议题有奖征集

北美 Spark + AI Summit 2020 盛会在即，Apache Spark 中国技术交流社区在此诚邀各位，代表国内开发者选择您最希望听到的主题，届时社区将联合国内顶尖技术专家一一展开中文形式分享。

开源大数据EMR

1076 0 1

新燕刀

分布式计算 Spark SQL

【译】使用Spark SQL 运行大规模基因组工作流

原文链接：https://databricks.com/blog/2019/06/26/scaling-genomic-workflows-with-spark-sql-bgen-and-vcf-readers.html

新燕刀

1693 0 0

阿里云E-MapReduce团队

SQL 存储分布式计算

【译】使用Spark SQL 运行大规模基因组工作流

将数据提取到Spark中是大多数大数据作业的第一步，但这并不是大数据旅途的终点。

阿里云E-MapReduce团队

9308 0 0

阿里云E-MapReduce团队

机器学习/深度学习人工智能分布式计算

Spark + AI summit 2019北美技术峰会华丽落幕

本次SAIC含盖了数据工程与数据科学的内容，包括AI产品化的最佳实践案例分享：超大数据规模下，利用流数据处理确保训练数据更新的时效性，完成数据质量监控，测试以及数据模型服务。也有对流行的软件框架如TensorFlow，SciKit-Learn，Keras，PyTorch，DeepLearning4J，BigDL以及Deep Learning Pipelines等，分别进行深入的主题分享探讨。

阿里云E-MapReduce团队

1202 0 0

寒凝雪

机器学习/深度学习分布式计算大数据

Spark Summit EU重头戏：TensorFlow、结构化的流和GPU硬件加速

寒凝雪

1499 0 0

【Spark Summit EU 2016】使用Spark轻松获取高产量基因组

热门文章

最新文章

相关课程

相关电子书