备案控制台

开发者社区

开发者社区大数据文章正文

storm的作业单元：Topology

2016-01-10 794

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Storm系统的数据处理应用单元，是被打包的被称为Topology的作业。它是由多个数据处理阶段组合而成的，而每个处理阶段在构造时被称为组件(Component),在运行时被称为任务。那么，组件根据作用的不同，在Storm中分为两类:Spout组件和Bolt组件。

Storm系统的数据处理应用单元，是被打包的被称为Topology的作业。它是由多个数据处理阶段组合而成的，而每个处理阶段在构造时被称为组件(Component),在运行时被称为任务。

那么，组件根据作用的不同，在Storm中分为两类:Spout组件和Bolt组件。而Topology就是这两类组件通过数据流连接的一种计算逻辑结构。（也就是说，上一个组建处理的输出结果，作为下游组件的输入数据流继续处理。如下图所示:

下来说明下一个Topology包含的这两种组件（Spout和Bolt):

Spout:Storm中的数据源编程单元，用于为Topology生产消息(数据).一般会从外部数据源不间断地读取数据，并作为一定结构的数据项(Tuple元祖）传递给Topology处理。

Bolt:Storm中的数据处理编程单元，实现Topology中的相关数据处理逻辑。在Bolt中，编程人员可以实现数据过滤、聚合、查询数据库等操作，处理的结果以一定结构的数据项，以流式处理的方式向下游组件传递和处理。

stream：组件间的数据传递分为三种形式，Stream grouping、All Grouping 、Drect Grouping等，具体等学习后再记录咯~

文章标签：

数据库

数据处理

流计算

松伯

目录

相关文章

星光下的赶路人

|

6月前

|

资源调度分布式计算调度

Fink--3、Flink运行时架构（并行度、算子链、任务槽、作业提交流程）

Fink--3、Flink运行时架构（并行度、算子链、任务槽、作业提交流程）

星光下的赶路人

535 0 0

游客wkxim4agoo6le

|

分布式计算调度 Spark

Spark作业调度中stage的划分

Spark在接收到提交的作业后，会进行RDD依赖分析并划分成多个stage，以stage为单位生成taskset并提交调度。

游客wkxim4agoo6le

741 0 1

Spark作业调度中stage的划分

游客wkxim4agoo6le

|

SQL 分布式计算数据处理

Storm拓扑并行度与及流分组策略

笔记

游客wkxim4agoo6le

131 0 0

Storm拓扑并行度与及流分组策略

技术小哥哥

|

分布式计算 Java Hadoop

Storm编程入门API系列之Storm的Topology多个Workers数目控制实现

技术小哥哥

1318 0 0

技术小哥哥

|

大数据流计算

Storm概念学习系列之并行度与如何提高storm的并行度

技术小哥哥

1457 0 0

技术小哥哥

|

分布式计算 Java 数据处理

Storm概念学习系列之Topology拓扑

技术小哥哥

1601 0 0

技术mix呢

|

Java 流计算数据处理

Storm Topology 提交总结---Kettle On Storm 实现

技术mix呢

1077 0 0

云无谓

|

分布式计算 Spark

在E-MapReduce集群内运行Spark GraphX作业

Spark GraphX是一个比较流行的图计算框架，如果你使用了阿里云的E-MapReduce服务，可以很方便的运行图计算的作业。下面以PageRank为例，看看如何运行GraphX作业

云无谓

2591 0 0

华章计算机

|

存储 Java Maven

《Storm分布式实时计算模式》——1.3　实现单词计数topology

华章计算机

1825 0 0

华章计算机

|

流计算

《Storm分布式实时计算模式》——3.7　执行topology

华章计算机

1010 0 0

热门文章

最新文章

阿里云各个地域节点测试IP（国内+海外）Ping值延迟测试（全解析）

基于Flink的实时日志分析系统实践

阿里云的SLB，植入cookie和重写cookie有什么区别？

uni-app 开源资源汇总

一文了解阿里云对象存储OSS

SQL SERVER中的OLEDB等待事件

kindle3使用技巧

sd卡无法写操作

普京顾问警告或征收科技税谷歌苹果可能受创

CIO：传统企业如何做好转型？

手动给docusaurus添加一个搜索

深入白盒测试：代码级透视与质量保证

网络安全与信息安全：防御前线的关键技术与意识

云端守卫：融合云计算与网络安全的未来之路

nginx 配置代理ip访问https的域名配置

基于Java的中国传统面食介绍网站的设计与实现(源码+lw+部署文档+讲解等)

Python搭建代理IP池实现存储IP的方法

外部中断的使用方法

基于Java的快递信息管理系统的设计与实现(源码+lw+部署文档+讲解等)

深入理解MySQL中的UPDATE JOIN语句

相关课程

更多

Hadoop 分布式资源管理框架 YARN

相关电子书

更多

Dataflow with Apache NiFi

Flink中的两类新型状态存储

《基于 Flink 的全新 Pulsar Connector 的设计、开发和使用》

下一篇

阿里云oss简介和使用流程