开发者社区大数据文章正文

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

2017-02-19 4126

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲，主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式，那么如何构建实时的商业智能系统就成为了一个挑战，本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲，主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式，那么如何构建实时的商业智能系统就成为了一个挑战，本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统。

4e21d7620d4d57d3a780e63912ee65d8641adf84

c41fa69b5e01b3f2f7aa1f84ebb14c85c8e4c66f

9f6373c12dff6abdec1d87f7fa6ee5a489b39c4a

b8e59a4913d20d7728694c6a5f5fc14f5cc44281

cbfd26fe5f6899007b86410a33383f586b0479c4

8fabbbd2a42cea1df62255819473d3e1da5b97f3

956a2bffe539d9816192cca113a4f265bd565599

9cafe52d81febf6b61440b0bf00e95fdf30d1108

51d5a5a91edd6f64c4f9323b2a43a113d6c1f578

85f9a0e970f1d785c568acd9e363a9c1b579e533

12d868c828e5bbd3a1cf15975b8891370edf2b32

520e573e2b3c900a1ab5ce71e8ebf766c178d2c9

1ed3ba32a2b386e03c753d5deb2d3a86b9fc6879

76c6526d847a07172178a91623cb8354ab9470fd
76e73e4ad80c5483b2cfef1197f885f69047f071

5beb9f8772316084fc06b82202f3767e993f2fe2

974b0b3d40d44f78499b9fb1b5d0a5b69dae8962

df6d1884f87026872e3dfd4b2359433de7f3aee5

e10caee9929b360192b1e57acee14a8137d2f3ee

文章标签：

云消息队列 Kafka 版

大数据

分布式计算

Spark

消息中间件

关键词：

云消息队列 Kafka 版构建

云消息队列 Kafka 版系统

apache spark kafka

云消息队列 Kafka 版spark

apache spark系统

小猫吃鱼569

阿甘兄

5月前

消息中间件分布式计算 Kafka

195 Spark Streaming整合Kafka完成网站点击流实时统计

阿甘兄

39 0 0

热烈的马

4月前

消息中间件分布式计算大数据

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装（图文解释超详细）

热烈的马

66 0 0

小云悠悠zZ

7月前

SQL 分布式计算 Java

Apache IoTDB开发系统整合之Spark IoTDB Connecter

以下 TsFile 结构为例： TsFile 架构中有三个度量：状态、温度和硬件。

小云悠悠zZ

104 0 0

桃李春风一杯酒

2天前

消息中间件存储 Java

深度探索：使用Apache Kafka构建高效Java消息队列处理系统

【4月更文挑战第17天】本文介绍了在Java环境下使用Apache Kafka进行消息队列处理的方法。Kafka是一个分布式流处理平台，采用发布/订阅模型，支持高效的消息生产和消费。文章详细讲解了Kafka的核心概念，包括主题、生产者和消费者，以及消息的存储和消费流程。此外，还展示了Java代码示例，说明如何创建生产者和消费者。最后，讨论了在高并发场景下的优化策略，如分区、消息压缩和批处理。通过理解和应用这些策略，可以构建高性能的消息系统。

桃李春风一杯酒

7 1 1

晓之以理的喵~~

3月前

消息中间件分布式计算 Kafka

Spark与Kafka的集成与流数据处理

晓之以理的喵~~

224 0 0

晓之以理的喵~~

3月前

消息中间件分布式计算 Kafka

使用Kafka与Spark Streaming进行流数据集成

晓之以理的喵~~

159 0 0

晓之以理的喵~~

3月前

SQL 分布式计算数据处理

Spark的生态系统概览：Spark SQL、Spark Streaming

晓之以理的喵~~

48 0 0

晓之以理的喵~~

4月前

消息中间件监控负载均衡

Kafka 最佳实践：构建可靠、高性能的分布式消息系统

Apache Kafka 是一个强大的分布式消息系统，被广泛应用于实时数据流处理和事件驱动架构。为了充分发挥 Kafka 的优势，需要遵循一些最佳实践，确保系统在高负载下稳定运行，数据可靠传递。本文将深入探讨 Kafka 的一些最佳实践，并提供丰富的示例代码，帮助大家更好地应用这一强大的消息系统。

晓之以理的喵~~

438 0 2

晓之以理的喵~~

4月前

消息中间件监控安全

Kafka安全性探究：构建可信赖的分布式消息系统

在本文中，将研究Kafka的安全性，探讨如何确保数据在传输和存储过程中的完整性、机密性以及授权访问。通过详实的示例代码，全面讨论Kafka安全性的各个方面，从加密通信到访问控制，帮助大家构建一个可信赖的分布式消息系统。

晓之以理的喵~~

49 0 0

晓之以理的喵~~

4月前

消息中间件关系型数据库 MySQL

Kafka Connect ：构建强大分布式数据集成方案

Kafka Connect 是 Apache Kafka 生态系统中的关键组件，专为构建可靠、高效的分布式数据集成解决方案而设计。本文将深入探讨 Kafka Connect 的核心架构、使用方法以及如何通过丰富的示例代码解决实际的数据集成挑战。

晓之以理的喵~~

178 0 0

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

热门文章

最新文章

相关课程

相关电子书

相关实验场景