备案控制台

开发者社区

开发者社区大数据文章正文

颠覆大数据分析之Shark：分布式系统上的SQL接口

2017-05-22 1423

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

内存计算已经成为了海量数据分析的一个重要范式。这一点可以从两个方面来进行理解。一方面，尽管当要查询的数据达到了PB级，但是由于时间和空间的局限性，在一个集群环境上仅需64GB的缓存就能够满足绝大多数的查询（95%）。Ananthanarayanan等人在一次研究中发现了这点。另一方面，由于机器学习算法需要在数据的工作集上进行迭代，如果工作数据集在内存中，它的实现会变得非常高效。Shark本质上可以看作是一个内存型的分布式SQL系统。

Shark基于Spark提供了SQL接口。Shark的主要特性就是它的SQL接口以及它能够基于机器学习来进行分析的能力，同时还有它为SQL查询和机器学习算法所提供的细粒度的容错性。对于查询而言，即使是粗粒度的RDD也能工作得很好，因为Shark可以从失败中进行恢复，它会去重新构造集群中丢失的RDD分区。这个恢复是细粒度的，这意味着它可以在查询的过程中进行恢复，并不像并行数据库系统那样得重新执行整个查询。

转载自并发编程网 - ifeve.com

文章标签：

SQL

算法

机器学习/深度学习

分布式计算

数据挖掘

Spark

缓存

关键词：

大数据SQL

云原生大数据计算服务 MaxCompute sql

云原生大数据计算服务 MaxCompute分析

云原生大数据计算服务 MaxCompute接口

分布式sql

青衫无名

目录

相关文章

技术交流13627902019

|

1月前

|

数据采集运维数据挖掘

API电商接口大数据分析与数据挖掘（商品详情店铺）

API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中，各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。

技术交流13627902019

381 5 6

金牛座Tina15579030501

|

3月前

|

数据采集传感器人工智能

大数据关键技术之电商API接口接入数据采集发展趋势

本文从数据采集场景、数据采集系统、数据采集技术方面阐述数据采集的发展趋势。 01 数据采集场景的发展趋势作为大数据和人工智能工程的源头，数据采集的场景伴随着应用场景的发展而变化，以下是数据采集场景的发展趋势。

金牛座Tina15579030501

67 1 1

爱吃糖的范同学

|

3月前

|

存储缓存 NoSQL

【分布式】Redis与Memcache的对比分析

【1月更文挑战第25天】【分布式】Redis与Memcache的对比分析

爱吃糖的范同学

94 1 1

洛神灬殇

|

18天前

|

设计模式安全 Java

【分布式技术专题】「Tomcat技术专题」探索Tomcat技术架构设计模式的奥秘（Server和Service组件原理分析）

【分布式技术专题】「Tomcat技术专题」探索Tomcat技术架构设计模式的奥秘（Server和Service组件原理分析）

洛神灬殇

21 0 0

热烈的马

|

4月前

|

SQL 分布式计算数据库

【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战（附源码）

【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战（附源码）

热烈的马

82 0 0

洛神灬殇

|

18天前

|

存储 Java 应用服务中间件

【分布式技术专题】「架构实践于案例分析」盘点互联网应用服务中常用分布式事务（刚性事务和柔性事务）的原理和方案

【分布式技术专题】「架构实践于案例分析」盘点互联网应用服务中常用分布式事务（刚性事务和柔性事务）的原理和方案

洛神灬殇

41 0 0

洛神灬殇

|

18天前

|

缓存应用服务中间件数据库

【分布式技术专题】「缓存解决方案」一文带领你好好认识一下企业级别的缓存技术解决方案的运作原理和开发实战（多级缓存设计分析）

【分布式技术专题】「缓存解决方案」一文带领你好好认识一下企业级别的缓存技术解决方案的运作原理和开发实战（多级缓存设计分析）

洛神灬殇

26 1 1

洛神灬殇

|

3月前

|

缓存负载均衡应用服务中间件

【分布式技术专题】「分析Web服务器架构」Tomcat服务器的运行架构和LVS负载均衡的运行机制（修订版）

在本章内容中，我们将深入探讨 Tomcat 服务器的运行架构、LVS 负载均衡的运行机制以及 Cache 缓存机制，并提供相应的解决方案和指导。通过理解这些关键概念和机制，您将能够优化您的系统架构，提高性能和可扩展性。

洛神灬殇

203 4 4

【分布式技术专题】「分析Web服务器架构」Tomcat服务器的运行架构和LVS负载均衡的运行机制（修订版）

诸葛子房

|

4月前

|

SQL 分布式计算大数据

大数据=SQL Boy,SQL Debug打破SQL Boy 的僵局

大数据=SQL Boy,SQL Debug打破SQL Boy 的僵局

诸葛子房

50 0 0

Maynor

|

4月前

|

SQL 分布式计算 Java

Note_Spark_Day08：Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)

Note_Spark_Day08：Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)

Maynor

45 0 0

热门文章

最新文章

数据仓库(13)大数据数仓经典最值得阅读书籍推荐

SQL注入的实现原理以及防止

大数据计算MaxCompute等长时间没有查出来结果的原因可能有以下几点：

如何在 Python 中进行 Web 应用程序的安全性管理，例如防止 SQL 注入？

P2P网络下分布式文件共享场景的测试

基于 Kyuubi 实现分布式 Flink SQL 网关

客户说｜从4小时到15分钟，一次分布式数据库的丝滑体验

EMQX Enterprise 5.4 发布：OpenTelemetry 分布式追踪、OCPP 网关、Confluent 集成支持

Apache Flink 是一个开源的分布式流处理框架

RabbitMQ：分布式系统中的高效消息队列

P2P网络下分布式文件共享场景的测试

Spring Boot 整合xxl-job实现分布式定时任务

学习分布式事务Seata看这一篇就够了，建议收藏

Flink CDC产品常见问题之读分布式mysql报连接超时如何解决

在Windows下设置分布式队列Celery的心跳轮询

这些年背过的面试题——分布式篇

新一代数据库技术：融合区块链与分布式存储的未来前景

带你了解文件系统架构的演变：从传统到分布式

客户说｜从4小时到15分钟，一次分布式数据库的丝滑体验

Go语言在分布式系统中的应用

相关课程

更多

2020版大数据实战项目之DMP广告系统（第二阶段）

2020版大数据实战项目之DMP广告系统（第三阶段）

2020版大数据实战项目之DMP广告系统（第四阶段）

2020版大数据实战项目之DMP广告系统（第五阶段）

2020版大数据实战项目之DMP广告系统（第六阶段）

2020版大数据实战项目之DMP广告系统（第七阶段）

相关电子书

更多

大数据AI一体化的解读

极氪大数据 Serverless 应用实践

大数据&AI实战派第2期

相关实验场景

更多

基于OpenSearch向量检索版和MaxCompute快速搭建图搜服务

倚天大数据电商数据分析快速实践

PolarDB for AI：在数据库中通过SQL实现AI能力

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

使用内置公开数据集快速体验MaxCompute

使用SQL语句管理索引

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）