开发者社区大数据文章正文

【Spark Summit EU 2016】Apache Kudu&Spark SQL：对快数据进行快速分析

2017-02-13 4938

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自 Mike Percy在Spark Summit EU上的演讲，主要介绍了Cloudera开发的大型开源储存引擎 Kudu，该引擎用于储存和服务大量不同类型的非结构化数据，并且介绍了使用Kudu+Spark SQL对于数据进行快速分析的方法，并分享了多个使用Kudu+Spark SQL进行数据分析的实际案例。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自 Mike Percy在Spark Summit EU上的演讲，主要介绍了Cloudera开发的大型开源储存引擎 Kudu，该引擎用于储存和服务大量不同类型的非结构化数据，并且介绍了使用Kudu+Spark SQL对于数据进行快速分析的方法，并分享了多个使用Kudu+Spark SQL进行数据分析的实际案例。

41eb70c4ff86f0995da0c3f99845799566f68d05

189bec42a6827768693dfcc82fc3f7d4d864effe

fddc86132c7eb3ca1d229a950e87d32d3a51f79f

0e3fe94d42c79ab6a3a827529707a370672a8032

9ac1180be026f2ab8b6d1aa5c809000d97e945b2

ac6e84d823968344e47a14498c8873e6080ae7e3

efeda8a0a8ea64fade1331458c7358820ad51169

a073e78e1d26f0121ea0dd924ef02c0dbb74812e

4e9434c2025d130421244ff0e913221e4bbe117a

2f90d649805c5b19485d74faf09f976e00fa430a

049c1090b31d6eedde85f1762734c253aa3c2873

92d45605846a51271e0a0eba29ccb6a5afc22cc8

4fa6c906fcd5f46f3fc71aeb8a0780d673d4de54

95bc9555073a20495d8f02a4464d70ca5d29b37b

a098f085db124abd6c7f05bbed4a0ef37ac18ae9

cb425d1fc6c5085d027bb5a0edc81b1d27117388

8a6c505b9e0265c2be3e3fa17fe09b2694a6a95e

3203fa966ac3d4cffe5437fc468ea05d9c35b735

e25607b47d1098a18b4b076db1d515607062f887

a60e9da8ef0da7dbf0dff6ee2c36ae35af4c40e2

ca677abb59a6f60e89b9820d46618d864062ddb1

ece3fd8d401aa2cc1589b697b36945c57b8f82d3

be0e560360ee7330d77024ef9ceb061d8ef90285

8d887d3a71e6afe56bf2f97b9e91f995fea5d7e2

8f4a9ca34c91c0787ead542418a2014bfdd88515

49774dd4c664673f25e48a28c2fc53b71949b546

4a76ddc19aadbc07b8e189cdb6c90b7293f7f056

6d09b166021743864a6093727f7e412268ca385b

f25eb947f2f3ed4724c55abbf72b5b5074d689c0

1778af8668ef6b76c8ba6494cf7984a9c744417c

475c436b244634914cc46e4151e732c4dfa28e16

88060f5eed8f4c51f822948e03d8dfcbb3b81cb1

4aa3fd523d1abf92dcef821208b9110a34a0a563

c663c3d15f3624fbdbd4f436a159b2780947b5cc

1155bae45d59646e2d9117f8b75e1df803adbd91

f6c707b478a68a968edae2daa2ab0e0b1a7be387

32c3a0484d973379c4c01f13946dba21d2fa1563

58af816cddc1034ee4180553eddfea2329c4292e

b6aa8c508511f7f7f8a9965362aeb9a7233933ab

418e3f5435232b17ed2ab5080c5d785fe54f35ff

dfad7e71fabaf01f8574ead62a3cae58d056ad46

8459bf50834c6de4a33e46f64e8de7541b121f87

c9565e2978fd159aa194dc96965de670be4af440

77935ff0192dd57a1753116538d21ad2e6c53e8f

c572ab80685faaad57ddcf72f4749e4dd35d1df2

1b0272c7d235816a7abae7ebfe983b7a72c651d2

1158acaa0cd13a586c10162822d4fbfe74b40618

文章标签：

SQL

Apache

分布式计算

Spark

关键词：

SQL数据

SQL分析

Apache数据

Apache sql

apache spark数据

小猫吃鱼569

1941623231718325

5天前

SQL 存储 Oracle

Oracle的PL/SQL定义变量和常量：数据的稳定与灵动

【4月更文挑战第19天】在Oracle PL/SQL中，变量和常量扮演着数据存储的关键角色。变量是可变的“魔术盒”，用于存储程序运行时的动态数据，通过`DECLARE`定义，可在循环和条件判断中体现其灵活性。常量则是不可变的“固定牌”，一旦设定值便保持不变，用`CONSTANT`声明，提供程序稳定性和易维护性。通过 `%TYPE`、`NOT NULL`等特性，可以更高效地管理和控制变量与常量，提升代码质量。善用两者，能优化PL/SQL程序的结构和性能。

1941623231718325

14 1 1

changwoo

25天前

SQL 存储关系型数据库

一文搞懂SQL优化——如何高效添加数据

**SQL优化关键点：** 1. **批量插入**提高效率，一次性建议不超过500条。 2. **手动事务**减少开销，多条插入语句用一个事务。 3. **主键顺序插入**避免页分裂，提升性能。 4. **使用`LOAD DATA INFILE`**大批量导入快速。 5. **避免主键乱序**，减少不必要的磁盘操作。 6. **选择合适主键类型**，避免UUID或长主键导致的性能问题。 7. **避免主键修改**，保持索引稳定。这些技巧能优化数据库操作，提升系统性能。

changwoo

220 4 4

傻啦嘿哟

1月前

SQL 数据可视化数据处理

使用SQL和Python处理Excel文件数据

傻啦嘿哟

54 0 0

1941623231718325

5天前

SQL Oracle 关系型数据库

Oracle的PL/SQL游标属性：数据的“导航仪”与“仪表盘”

【4月更文挑战第19天】Oracle PL/SQL游标属性如同车辆的导航仪和仪表盘，提供丰富信息和控制。 `%FOUND`和`%NOTFOUND`指示数据读取状态，`%ROWCOUNT`记录处理行数，`%ISOPEN`显示游标状态。还有`%BULK_ROWCOUNT`和`%BULK_EXCEPTIONS`增强处理灵活性。通过实例展示了如何在数据处理中利用这些属性监控和控制流程，提高效率和准确性。掌握游标属性是提升数据处理能力的关键。

1941623231718325

27 9 10

1941623231718325

5天前

SQL Oracle 安全

Oracle的PL/SQL循环语句：数据的“旋转木马”与“无限之旅”

【4月更文挑战第19天】Oracle PL/SQL中的循环语句（LOOP、EXIT WHEN、FOR、WHILE）是处理数据的关键工具，用于批量操作、报表生成和复杂业务逻辑。LOOP提供无限循环，可通过EXIT WHEN设定退出条件；FOR循环适用于固定次数迭代，WHILE循环基于条件判断执行。有效使用循环能提高效率，但需注意避免无限循环和优化大数据处理性能。掌握循环语句，将使数据处理更加高效和便捷。

1941623231718325

10 2 2

1941623231718325

5天前

SQL Oracle 关系型数据库

Oracle的PL/SQL条件控制：数据的“红绿灯”与“分岔路”

【4月更文挑战第19天】在Oracle PL/SQL中，IF语句与CASE语句扮演着数据流程控制的关键角色。IF语句如红绿灯，依据条件决定程序执行路径；ELSE和ELSIF提供多分支逻辑。CASE语句则是分岔路，按表达式值选择执行路径。这些条件控制语句在数据验证、错误处理和业务逻辑中不可或缺，通过巧妙运用能实现高效程序逻辑，保障数据正确流转，支持企业业务发展。理解并熟练掌握这些语句的使用是成为合格数据管理员的重要一环。

1941623231718325

12 0 0

1941623231718325

5天前

SQL Oracle 关系型数据库

Oracle的PL/SQL表达式：数据的魔法公式

【4月更文挑战第19天】探索Oracle PL/SQL表达式，体验数据的魔法公式。表达式结合常量、变量、运算符和函数，用于数据运算与转换。算术运算符处理数值计算，比较运算符执行数据比较，内置函数如TO_CHAR、ROUND和SUBSTR提供多样化操作。条件表达式如CASE和NULLIF实现灵活逻辑判断。广泛应用于SQL查询和PL/SQL程序，助你驾驭数据，揭示其背后的规律与秘密，成为数据魔法师。

1941623231718325

13 2 2

极客李华

15天前

SQL 数据库索引

SQL索引失效原因分析与解决方案

极客李华

22 0 0

爱吃糖的范同学

23天前

SQL 关系型数据库 MySQL

【MySQL】慢SQL分析流程

【4月更文挑战第1天】【MySQL】慢SQL分析流程

爱吃糖的范同学

30 1 1

风水道人

28天前

SQL 关系型数据库 MySQL

SQL INSERT INTO order_record SELECT * FROM 从一张表查出数据插入到另一张表

风水道人

14 0 0

【Spark Summit EU 2016】Apache Kudu&Spark SQL：对快数据进行快速分析

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像