五维空间s + 关注

五维空间s 发表了文章:

cdh 某台机器 agent挂掉,界面无法启动的解决方案

发布时间:2020-06-09 21:33:26 浏览:91 回帖 :0

场景: cdh环境某台机器agent挂掉,出现红色谈好,提示连接超时等信息,cdh界面操作重启报错,提示找不到 某进程id,导致无法启动。解决方案: shell登陆到这台机器,执行命令 /opt/...

shell agent 解决方案

五维空间s 发表了文章:

kafka 三种消费语义

发布时间:2020-05-26 14:38:39 浏览:116 回帖 :0

消费语义at most once:最多消费一次,消息可能会丢失-------log日志at least once:至少消费一次,但是会重复消费 例如手动异步提交offsetexactly once:正...

mysql hbase SQL 日志 LOG

五维空间s 发表了文章:

spark-streaming-kafka-0-8 官网讲解

发布时间:2020-05-20 11:10:04 浏览:207 回帖 :0

spark-streaming-kafka-0-8Note: Kafka 0.8 support is deprecated as of Spark 2.3.0.0.8在spark2.3中被标为过时...

API Consumer zookeeper

五维空间s 发表了文章:

spark streaming 流式计算-----容错(hbase幂等性修改)

发布时间:2020-05-14 16:41:48 浏览:192 回帖 :0

在做流式计算过程中,最复杂最难做的莫过于数据幂等性修改操作的设计。先解释一下概念【幂等性操作】,幂等性概念来源于数学专业表示对一个表达式做多次相同的操作,表达式不会改变。例如:逻辑回归中的Sigmo...

hbase hdfs 线程 spark 流式计算 表达式

五维空间s 发表了文章:

广播变量(Broadcast)-及生命周期

发布时间:2020-05-13 14:19:18 浏览:308 回帖 :0

1 Spark中广播变量概念广播变量是spark中共享变量的其中一种。它可以让程序高效的向所有工作节点发送一个只读的值,以供一个或多个spark操作使用。 2 广播变量使用示例下面是一段简单的计算逻...

Apache spark scala

五维空间s 发表了文章:

Kafka SparkStreaming 保证数据不丢失问题 >0.10版本

发布时间:2020-05-12 13:54:23 浏览:216 回帖 :0

sparkstreaming 处理kafka数据,几种数据丢失的情况, 1、雪崩效应导致的异常 kill掉进程 ,导致数据丢失 2、程序bug 导致进程挂了,导致数据丢失 以上是使用自动提交of...

API string stream Transaction update Commit

五维空间s 发表了文章:

SparkStreaming 手动维护kafka Offset到Mysql实例

发布时间:2020-04-03 11:37:40 浏览:1214 回帖 :0

sparkstreamig kafka offset mysql

mysql Apache 源码 数据库 spark string

五维空间s 评论了文章:

Sparkstreaming读取Kafka消息再结合SparkSQL,将结果保存到HBase

发布时间:2016-09-19 17:07:53 浏览:9463 回帖 :1

环境为CDH5.8,开发工具为IDEA,大数据目前最新的API,送给大家避免踩坑!!

数据存储与数据库 分布式 大数据 分布式系统与计算 实时系统

“你这样会每条数据都建一个hbase连接吧”

五维空间s 发表了文章:

使用SparkSql 读取ES数据

发布时间:2020-03-07 13:28:52 浏览:409 回帖 :0

对于大批量数据,查询es时,需要带条件去查询,否则一下查出所有数据数据量会很大 es查询需要编写json格式的DSL查询语句,对于复杂查询,DSL编写起来也分很复杂,所以我们这里使用sparks...

SQL 配置 spark 索引 Elasticsearch

五维空间s 发表了文章:

SparkStreaming中foreachRDD、foreachPartition和foreach 及序列化问题

发布时间:2019-06-27 17:32:21 浏览:1794 回帖 :0

最近项目遇到报错序列化相关问题,于是把这三个拿出来分析一下,先来看下foreachRDD、foreachPartition和foreach的不同之处。不同主要在于它们的作用范围不同,foreachRD...

Driver

五维空间s 发表了文章:

生产实践Kafka与ELK

发布时间:2019-03-12 18:07:22 浏览:1185 回帖 :0

项目背景,第三方发送数据到kafka。我方负责消费,解码、存储、入库。 开发环境:集群1.0kafka,springboot开发程序 问题:1.kafka服务端与客户端版本不一致,服务端1.0,客户...

监控 线程 配置 集群 开发环境 kafka

五维空间s 发表了文章:

kafka 的有序与无序

发布时间:2019-03-12 15:31:56 浏览:2242 回帖 :0

同时创建kafka生产者produce,kafka消费者consumer,其中我们的topic创建了3个分区,  生产者发送几条数据,使用命令查看消费。 可以看到刚刚生产的这几条数据,当我退出...

SQL Json Consumer update

五维空间s 发表了文章:

分布式消息队列kafka

发布时间:2019-03-12 15:31:35 浏览:910 回帖 :0

kafka是Linkedin开源的分布式发布-订阅消息系统(消息队列) kafka特点 1 高吞吐率、低延迟,每秒处理几十万消息,延迟最低几毫秒 2 可扩展性,支持动态扩展节点数据 3 持久性与可靠...

分布式 消息系统 架构 消息队列 高并发 可扩展性 Consumer 磁盘 Group

五维空间s 发表了文章:

Spark Streaming 的saveAsTextFiles遇到的坑

发布时间:2019-01-10 17:12:36 浏览:2484 回帖 :0

使用sparkStreaming消费数据,并使用Dstream的 saveAsTextFile保存数据到hdfs中,通过使用这个方法,生成的文件夹存在问题, 代码例子如下:     resultR...

hdfs 源码 spark string prefix file

五维空间s 发表了文章:

Spark基本的RDD算子之groupBy,groupByKey,mapValues

发布时间:2018-11-29 23:02:53 浏览:6072 回帖 :0

1. groupby def groupBy[K: ClassTag](f: T => K): RDD[(K, Iterable[T])] def groupBy[K: ClassTag](f...

函数 spark string 编程 list Group

五维空间s 发表了文章:

kafka部署及命令

发布时间:2018-10-24 22:25:35 浏览:915 回帖 :0

hadoop path 配置 scala Server zookeeper

五维空间s 发表了文章:

Compression压缩

发布时间:2018-09-03 23:16:53 浏览:1326 回帖 :0

压缩所带来的好处,磁盘、IO,都来带来很多好处,同时也有很多的弊端。 生产环境经常用的集中压缩  gzip  、 bzip2 、LZO、Snappy Bzip2 压缩比30%   ---支持分割 ...

gzip hadoop Apache 配置 索引 xml 磁盘 Mapreduce

五维空间s 发表了文章:

Yarn 日志存储配置

发布时间:2018-08-21 23:11:29 浏览:2069 回帖 :0

我们知道,yarn上能够监控运行的spark情况,但是一个程序运行完后就会被销毁,看不到了。 所以我们需要在程序运行完也能看到日志,这是就需要配置我们的参数了 1.进入spark conf下,...

监控 hdfs 日志 配置 浏览器 spark 存储

五维空间s 发表了文章:

svn 服务器搭建

发布时间:2018-08-07 23:54:42 浏览:3069 回帖 :0

linux 服务器 配置 SVN subversion

五维空间s 发表了文章:

使用python 自动化监控进程

发布时间:2018-08-06 14:47:16 浏览:2730 回帖 :0

linux python 监控 Server 脚本 static source

2
暂未提供

感兴趣or擅长的领域:

暂无
更多>
更多>
乐乐小石头
乐乐小石头
文章:0丨 粉丝:0丨 话题:0
scottdoge
scottdoge
文章:0丨 粉丝:0丨 话题:0
赢博赛尔
赢博赛尔
文章:0丨 粉丝:1丨 话题:0