1. 云栖社区>
  2. 全部标签>
  3. #storm#
storm

#storm#

已有3人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

E-MapReduce大数据平台

1. 产品介绍 E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、Kafka、Storm,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。

大数据 storm hadoop ECS 数据处理 集群 数据分析 spark 开源大数据 e-mapreduce 海量数据

Spark Streaming

1. Spark Streaming介绍 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。

storm Apache 数据流 spark 流式计算 流数据

storm 读取不到对应的kafka数据

坑一:pom文件主要内容:注意里面 需要 使用 “exclusion”排除相关的依赖 UTF-8 1.

storm Apache Maven string zookeeper input

Spark框架概览【大数据技术】

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求 官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍,在实际项目中也比较接近这一指标。

大数据 storm hadoop Apache 集群 spark 磁盘 Mapreduce 流数据

Storm的ack机制在项目应用中的坑

正在学习storm的大兄弟们,我又来传道授业解惑了,是不是觉得自己会用ack了。好吧,那就让我开始啪啪打你们脸吧。 先说一下ACK机制:   为了保证数据能正确的被处理, 对于spout产生的每一个tuple, storm都会进行跟踪。

分布式 storm string

Storm的BaseBasicBolt源码解析ack机制

我们在学习ack机制的时候,我们知道Storm的Bolt有BaseBasicBolt和BaseRichBolt。在BaseBasicBolt中,BasicOutputCollector在emit数据的时候,会自动和输入的tuple相关联,而在execute方法结束的时候那个输入tuple会被自动ack。

storm 源码 string class void list input

storm0.9.5集群安装

安装前的准备工作 关闭防火墙 chkconfig iptables off && setenforce 0 创建用户 groupadd realtime && useradd realtime && usermod -a -G realtime realtime 创建工作目录并赋权 mkdir /export mkdir /export/servers chmod 755 -R /export 切换到realtime用户下 su realtime   1、安装一个zookeeper集群,并启动zookeeper集群。

storm jvm 服务器 日志 LOG 配置 集群 主机 supervisor zookeeper

由提交storm项目jar包引发对jar的原理的探索

序:在开发storm项目时,提交项目jar包当把依赖的第三方jar包都打进去提交storm集群启动时报了发现多个同名的文件错误由此开始了一段对jar包的深刻理解之路。 java.lang.

java storm mysql Apache 集群 plugin hashmap jedis

kafka主题offset各种需求修改方法

  简要:开发中,常常因为需要我们要认为修改消费者实例对kafka某个主题消费的偏移量。具体如何修改?为什么可行?其实很容易,有时候只要我们换一种方式思考,如果我自己实现kafka消费者,我该如何让我们的消费者代码如何控制对某一个主题消费,以及我们该如何实现不同消费者组可以消费同一个主题的同一条消息,一个消费组下不同消费者消费同一个主题的不同消息。

storm hadoop read zookeeper 存储

交易系统使用storm,在消息高可靠情况下,如何避免消息重复

概要:在使用storm分布式计算框架进行数据处理时,如何保证进入storm的消息的一定会被处理,且不会被重复处理。这个时候仅仅开启storm的ack机制并不能解决上述问题。那么该如何设计出一个好的方案来解决上述问题?   现有架构背景:本人所在项目组的实时系统负责为XXX的实时产生的交易记录进行处理,根据处理的结果向用户推送不同的信息。

redis 架构 storm 实时系统 存储

storm 1.0版本滑动窗口的实现及原理

滑动窗口在监控和统计应用的场景比较广泛,比如每隔一段时间(10s)统计最近30s的请求量或者异常次数,根据请求或者异常次数采取相应措施。在storm1.0版本之前,没有提供关于滑动窗口的实现,需要开发者自己实现滑动窗口的功能(storm1.0以前实现滑动窗口的实现原理可以自行百度)。

storm void 数据统计

storm1.0节点间消息传递过久分析及调优

  序:最近对storm平台系统进行性能检测发现偶尔会出现oncebolt向另一个twobolt发送数据后,twobolt要500毫秒后才接收到进行处理。这里简单说增大twobolt的并行度即可解决,但是究其内部原因是因为storm的通信机制所导致的问题。

storm 性能 线程 void input

Strom序列化机制

  Storm 中的 tuple可以包含任何类型的对象。由于Storm 是一个分布式系统,所以在不同的任务之间传递消息时Storm必须知道怎样序列化、反序列化消息对象。   Storm 使用 Kryo库对对象进行序列化。

java storm class void bean arraylist input

storm从入门到放弃(一),storm介绍

背景:目前就职于国内最大的IT咨询公司,恰巧又是毕业季,所在部门招了20多个应届毕业生,本人要跟部门新人进行为期一个月的大数据入职培训,特此将整理的文档分享出来。 原文和作者一起讨论:http://www.cnblogs.com/intsmaze/p/7274361.html 微信:intsmaze 避免微信回复重复咨询问题,技术咨询请博客留言。

storm 线程 集群 string 序列 stream

storm从入门到放弃(三),放弃使用 StreamId 特性

  序:StreamId是storm中实现DAG有向无环图的重要一个特性,但是从实际生产环境来看,这个功能其实蛮影响生产环境的稳定性的,我们系统在迭代时会带来整体服务的不可用。   StreamId是storm中实现DAG有向无环图的重要一个特性,官方也提供对应的接口实现让开发者自己灵活化构造自己的ADG图。

storm string static class void type input

storm自定义分组与Hbase预分区结合节省内存消耗

Hbas预分区   在系统中向hbase中插入数据时,常常通过设置region的预分区来防止大数据量插入的热点问题,提高数据插入的效率,同时可以减少当数据猛增时由于Region split带来的资源消耗。

大数据 算法 storm hbase 线程 集群 分区表

Storm同步调用之DRPC模型探讨

  摘要:Storm的编程模型是一个有向无环图,决定了storm的spout接收到外部系统的请求后,spout并不能得到bolt的处理结果并将结果返回给外部请求。所以也就决定了storm无法提供对外部系统的同步调用功能。

RPC 分布式 redis storm 消息队列 服务器 函数 同步 多线程 编程

大数据Storm相比于Spark、Hadoop有哪些优势(摘录)

一、可能很多初学大数据的伙伴不知道strom是什么,先给大家介绍一下strom:分布式实时计算系统,storm对于实时计算的意义类似于hadoop对于批处理的意义。

分布式 大数据 storm hadoop 线程 集群 spark 编程

大数据构架师学习入门到精通,必看宝典

经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。

大数据 监控 storm hdfs hadoop SQL 日志 数据库 数据仓库 spark Hive 数据同步 数据采集 Mapreduce sqoop

上一页 1 ... 4 5 6 7 8 ... 32 下一页
32
GO