备案控制台

开发者社区

开发者社区大数据文章正文

【Spark Summit East 2017】加速云上Spark基因测序的数据驱动方法以及案例研究

2017-02-20 1916

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲，主要介绍了正在研发中的基于Spark的编程平台GATK4（Genome Analysis Toolkit version 4 ），并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲，主要介绍了正在研发中的基于Spark的编程平台GATK4（Genome Analysis Toolkit version 4 ），并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作。除此之外还介绍了名为PAT的内部数据分析框架，并介绍了如何使用PAT快速建立Spark与虚拟机合适的配置组合来优化对于云的硬件资源以及Spark计算并行性的使用。

c44824e20d94eba4a3df01cc685f38105c166cd2

ffe40d3f59fd82e639305cd617bcf0bc7bad45de

652bba4f7ef8b42fea35f3c772e786d154b86db9

154d458064c562e9cf20198aef68b16c9830b5bd

b8828d86ba750e82174e88c0edeab9fa90adf4b6

a78d9e726d784e8d743d4a20d4b65467281cce7c

fe50c6a45fab7f31f6057d43d484921090f5be14

9fd8d1bdd6898817ef0813fed949a7ee75a4e991

9076574ea83eb8e28e8c1aea105748e7f3c76eba

ad5fd82ad78d2aaa4aaf64efc1bc84b4beca369c

170f1982853c8594942c492240c7b7c2fcb4895e

80d64d67238177639d755dddac5e5d3f7f8f534f

7f243e003aa26e0b1b7250d1a579274852a84b02

449bc82ce697caa5b804dd336d5486cb4cd3a1ca

2dcd68d57af23a3b247159394b3b582a6358dbcf

e9d7c58b66379d4a483261960118d791136c10ba

810a0c2994a3b8092e152e31773608504b072a34

0f139ca7f19c2a913cd40fca57dec151654f2ae9

cd4dfd670ca4965f5a6f28369edd164fe920f2b4

9ba81e51f3dd459e1aa31dcdfcf4a9cbec17d334

267c63fb53a93aeae2844fc16d49114f0dfb55f1

文章标签：

分布式计算

大数据

Spark

数据挖掘

MaxCompute

关键词：

apache spark方法

apache spark数据案例

apache spark summit

apache spark summit east

apache spark east

小猫吃鱼569

目录

相关文章

赵广陆

|

7月前

|

canal 分布式计算关系型数据库

大数据Spark Streaming实时处理Canal同步binlog数据

大数据Spark Streaming实时处理Canal同步binlog数据

赵广陆

112 0 0

建模sister

|

2月前

|

SQL 分布式计算 API

Spark学习------SparkSQL（概述、编程、数据的加载和保存）

Spark学习------SparkSQL（概述、编程、数据的加载和保存）

建模sister

50 2 2

热烈的马

|

4月前

|

分布式计算大数据 Apache

【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解（图文解释超详细）

【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解（图文解释超详细）

热烈的马

62 0 0

建模sister

|

1月前

|

SQL 分布式计算 Java

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

建模sister

75 1 1

sunrr

|

1月前

|

存储分布式计算 API

adb spark的lakehouse api访问内表数据，还支持算子下推吗

【2月更文挑战第21天】adb spark的lakehouse api访问内表数据，还支持算子下推吗

sunrr

107 2 2

晓之以理的喵~~

|

3月前

|

分布式计算分布式数据库 API

Spark与HBase的集成与数据访问

Spark与HBase的集成与数据访问

晓之以理的喵~~

70 0 0

晓之以理的喵~~

|

3月前

|

JSON 分布式计算关系型数据库

Spark中使用DataFrame进行数据转换和操作

Spark中使用DataFrame进行数据转换和操作

晓之以理的喵~~

99 0 0

晓之以理的喵~~

|

3月前

|

存储分布式计算调度

Spark任务调度与数据本地性

Spark任务调度与数据本地性

晓之以理的喵~~

31 0 0

诸葛子房

|

4月前

|

分布式计算 Java Spark

Spark Driver和Executor数据传递使用问题

Spark Driver和Executor数据传递使用问题

诸葛子房

30 0 0

Maynor

|

4月前

|

SQL 分布式计算 Apache

流数据湖平台Apache Paimon（六）集成Spark之DML插入数据

流数据湖平台Apache Paimon（六）集成Spark之DML插入数据

Maynor

77 0 0

热门文章

最新文章

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

大数据技术与Python：结合Spark和Hadoop进行分布式计算

bigdata-36-Spark转换算子与动作算子

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

sparkRDD 算子的创建和使用

Spark 源码分析 -- BlockStore

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

Spark RDD类源码阅读

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark环境搭建与使用

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

Spark学习--day05、累加器

Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存

Spark学习---day03、Spark核心编程（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（二）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

基于阿里云E-HPC平台的WRF气象预报实验

倚天大数据电商数据分析快速实践

利用大模型大规模分发技术，实现AIGC在线应用秒级弹性

Lindorm AIGC：十分钟搞定智能问答 + 多模态检索

通过计算巢快速构建的企业专属Chatbot

下一篇

阿里云oss简介和使用流程