【Spark Summit East 2017】加速云上Spark基因测序的数据驱动方法以及案例研究

简介: 本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲,主要介绍了正在研发中的基于Spark的编程平台GATK4(Genome Analysis Toolkit version 4 ),并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲,主要介绍了正在研发中的基于Spark的编程平台GATK4(Genome Analysis Toolkit version 4 ),并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作。除此之外还介绍了名为PAT的内部数据分析框架,并介绍了如何使用PAT快速建立Spark与虚拟机合适的配置组合来优化对于云的硬件资源以及Spark计算并行性的使用。


c44824e20d94eba4a3df01cc685f38105c166cd2

ffe40d3f59fd82e639305cd617bcf0bc7bad45de

652bba4f7ef8b42fea35f3c772e786d154b86db9

154d458064c562e9cf20198aef68b16c9830b5bd

b8828d86ba750e82174e88c0edeab9fa90adf4b6

a78d9e726d784e8d743d4a20d4b65467281cce7c

fe50c6a45fab7f31f6057d43d484921090f5be14

9fd8d1bdd6898817ef0813fed949a7ee75a4e991

9076574ea83eb8e28e8c1aea105748e7f3c76eba

ad5fd82ad78d2aaa4aaf64efc1bc84b4beca369c

170f1982853c8594942c492240c7b7c2fcb4895e

80d64d67238177639d755dddac5e5d3f7f8f534f

7f243e003aa26e0b1b7250d1a579274852a84b02

449bc82ce697caa5b804dd336d5486cb4cd3a1ca

2dcd68d57af23a3b247159394b3b582a6358dbcf

e9d7c58b66379d4a483261960118d791136c10ba

810a0c2994a3b8092e152e31773608504b072a34

0f139ca7f19c2a913cd40fca57dec151654f2ae9

cd4dfd670ca4965f5a6f28369edd164fe920f2b4

9ba81e51f3dd459e1aa31dcdfcf4a9cbec17d334

267c63fb53a93aeae2844fc16d49114f0dfb55f1

相关文章
|
7月前
|
canal 分布式计算 关系型数据库
大数据Spark Streaming实时处理Canal同步binlog数据
大数据Spark Streaming实时处理Canal同步binlog数据
112 0
|
2月前
|
SQL 分布式计算 API
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
50 2
|
4月前
|
分布式计算 大数据 Apache
【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解(图文解释 超详细)
【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解(图文解释 超详细)
62 0
|
1月前
|
SQL 分布式计算 Java
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
75 1
|
1月前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
107 2
|
3月前
|
分布式计算 分布式数据库 API
Spark与HBase的集成与数据访问
Spark与HBase的集成与数据访问
|
3月前
|
JSON 分布式计算 关系型数据库
Spark中使用DataFrame进行数据转换和操作
Spark中使用DataFrame进行数据转换和操作
|
3月前
|
存储 分布式计算 调度
Spark任务调度与数据本地性
Spark任务调度与数据本地性
|
4月前
|
分布式计算 Java Spark
Spark Driver和Executor数据传递使用问题
Spark Driver和Executor数据传递使用问题
30 0
|
4月前
|
SQL 分布式计算 Apache
流数据湖平台Apache Paimon(六)集成Spark之DML插入数据
流数据湖平台Apache Paimon(六)集成Spark之DML插入数据
77 0