社区小助手 + 关注
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

社区小助手 参与了问答:

请问有人知道datax mongodbreader里面的query查询语句应该写成什么格式呢?

请问有人知道datax mongodbreader里面的query查询语句应该写成什么格式呢?

“{field:'a'},{field1:1,field2:1,field3:1......} 应该只写find函数里面的内容就行建议下载源码 里面有reader文档”

社区小助手 参与了问答:

在集群上为什么启动另一个spark任务会kill掉前一个spark任务

在集群上为什么启动另一个spark任务会kill掉前一个spark任务

“session 线程数问题”

社区小助手 参与了问答:

咨询个问题,hive on tez,insert overwrite table select * from A union all select * from B。插入分区表是会自动创建子目录 1、2、3如何解决?

咨询个问题,hive on tez,insert overwrite table select from A union all select from B。插入分区表是会自动创建子目录 1、2、...

“select (select union all select ) order by xxdistribute by xxx”

社区小助手 参与了问答:

请教各位一个问题,使用spark读写Kudu数据,如果使用spark_kudu 1.9.0的包可以读取Kudu表的数据,创建KuduContext会报错:java.lang.IllegalStateException。如果使用1.7.0或者1.8.0的jar包,无法读数据,会报错:java.lang.ClassNotFoundException: kudu.DefaultSource。这是为啥啊

请教各位一个问题,使用spark读写Kudu数据,如果使用spark_kudu 1.9.0的包可以读取Kudu表的数据,创建KuduContext会报错:java.lang.IllegalStateE...

“缺包 或者 包冲突”

社区小助手 参与了问答:

有哪位遇到过这个问题,没搞明白是哪里的数组越界了

有哪位遇到过这个问题,没搞明白是那里的数组越界了

“看样子是并发修改造成的”

社区小助手 参与了问答:

请问有人知道 pyspark 在cdh中运行需要配置什么环境吗

请问有人知道 pyspark 在cdh中运行需要配置什么环境吗

“要上传那些依赖包”

社区小助手 参与了问答:

在 mapPartitions 中连接redis都是怎么做的?我用 --jars 引用jedis包在mapPartitions外使用正常,放到mapPartitions内部就会抛出 「java.lang.NoClassDefFoundError: redis/clients/jedis/Jedis」的错误

在 mapPartitions 中连接redis都是怎么做的?我用 --jars 引用jedis包在mapPartitions外使用正常,放到mapPartitions内部就会抛出 「java.lan...

“广播”

社区小助手 参与了问答:

MetaBase怎么添加Spark2 DataType

MetaBase怎么添加Spark2 DataType

“用sql”

社区小助手 参与了问答:

sql语句不支持delete操作

sql语句不支持delete操作,如果我想执行delete操作该怎么办

“把delete反一下,转成select”

社区小助手 参与了问答:

sparkstreaming跑的时候总会因为一两个task执行不结束而卡死!请问一下怎么排查或者解决啊

sparkstreaming跑的时候总会因为一两个task执行不结束而卡死!请问一下怎么排查或者解决啊

“看yarn的日志排查原因”

社区小助手 参与了问答:

请问一下如何能查看spark struct streaming内存使用情况呢

请问一下如何能查看spark struct streaming内存使用情况呢

“event log里的peak execution memory可以参考下。”

社区小助手 参与了问答:

请教一下各位大佬一个基础性的东西这个代表读取系统默认配置么?

请教一下各位大佬一个基础性的东西这个代表读取系统默认配置么?

“这个是让你设置对应的配置属性”

社区小助手 参与了问答:

使用spark 2.3 structed streaming 时 checkpoint 频繁在HDFS写小文件,块数到达百万级别 ,这个怎么优化下

请教各位大神们: 使用spark 2.3 structed streaming 时 checkpoint 频繁在HDFS写小文件,块数到达千万级别 ,这个怎么优化下

“取消checkpoint呢”

社区小助手 参与了问答:

请教大家一个问题,spark stream连kafka,在web页面的stream标签,显示好多batch处于queued状态,这些batch是已经把数据从kafka读取进rdd,等待处理,还是还没有从kafka读取数进rdd?

请教大家一个问题,spark stream连kafka,在web页面的stream标签,显示好多batch处于queued状态,这些batch是已经把数据从kafka读取进rdd,等待处理,还是还没有...

“最直接的想法, 如果读取数据, 那么多数据放到内存, 内存早就over了.”

社区小助手 评论了文章:

更安全的元组-Python基础前传(8)

发布时间:2019-01-10 14:45:06 浏览:292 回帖 :1

18世纪上半叶杰出的启蒙思想家孟德斯鸠在《论法的精神》提到: “一切有权力的人都容易滥用权力,这是万古不易的一条经验。有权力的人使用权力一直到遇有界限的地方方才休止。因此,要防止滥用权力,就必须...

python 安全 list

“欢迎加入阿里云python技术进阶钉群交流经验:http://tb.cn/UQkRRHw”

社区小助手 评论了文章:

基础语言百问-Python

发布时间:2019-01-07 22:56:58 浏览:551 回帖 :1

基础语言百问-Python 软件界最近非常流行一句话“人生苦短,快用Python”,这就展示出了Python的特点,那就是快,当然这个快并不是指的Python运行快,毕竟是脚本语言,再怎样也快不过C...

云栖社区 linux python 大数据 数据可视化 MongoDB 加密 数据库 配置 数加 钉钉 正则表达式 aliyun 脚本 ask

“同学你好,你对python了解多少呢,欢迎加入python钉群与资深大牛一起交流:http://tb.cn/UQkRRHw”

社区小助手 发表了文章:

# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】

发布时间:2019-01-08 14:59:13 浏览:522 回帖 :0

**直播时间**: 2019.01.10(周四) 19:00 - 20:00 **主讲人:** 黄凯——Intel大数据技术团队软件工程师。 卫雨青——Microsoft C+AI 团队软...

深度学习 分布式 大数据 Apache 模块 集群 排序 数据分析 钉钉 问答 spark 数据存储 客服

社区小助手 参与了问答:

pyspark - 在json流数据中找到max和min usign createDataFrame

我有一组由Kafka流式传输的json消息,每个消息都描述一个网站用户。使用pyspark,我需要计算每个国家/地区每个流媒体窗口的用户数,并返回具有最大和最小用户数的国家/地区。 以下是流式json...

“如果我理解正确,您需要按国家/地区对邮件列表进行分组,然后计算每个组中的邮件数,然后选择具有最小和最大邮件数的组。 在我的脑海中,代码将是这样的: assuming the array_of_user...查看全部>

社区小助手 参与了问答:

解析Apache Spark Scala中的数据org.apache.spark.SparkException:尝试使用textinputformat.record.delimiter时出现任务无序列化错误

输入文件: DATE 2018-11-16T06:3937Linux hortonworks 3.10.0-514.26.2.el7.x86_64 #1 SMP Fri Jun 30 05:26:04...

“更改__DATA__管道“|”后 ,下面的代码片段产生所需的输出。请注意,我使用的是Windows平台,因此我将替换“ r n”。请检查 val spark = SparkSession.build...查看全部>

社区小助手 参与了问答:

如何计算和获取Spark Dataframe中唯一ID的值总和?

我有以下Dataframe,我希望按ID汇总,并为每个唯一ID总和'value'列: import org.apache.spark.sql.functions._import spark.impli...

“这样做的方法是使用聚合函数。Sparks带有许多预定义的(平均值,总和,计数,第一个,收集列表,收集集,最小值,最大值......),所以你可以随时在你的例子中这样做: df.groupBy("id"...查看全部>
4
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

感兴趣or擅长的领域:

更多>
管理贝贝
管理贝贝
文章:51丨 粉丝:1704丨 话题:11
王爽wasugar
王爽wasugar
文章:0丨 粉丝:1013丨 话题:0
小扑
小扑
文章:11丨 粉丝:412丨 话题:0
健身不健身
健身不健身
文章:0丨 粉丝:298丨 话题:0
鱼跟猫
鱼跟猫
文章:12丨 粉丝:435丨 话题:0
诚历
诚历
文章:2丨 粉丝:299丨 话题:0
更多>
游客3dsdkrbqvaprs
游客3dsdkrbqvaprs
文章:0丨 粉丝:0丨 话题:0
游客kob5psnwpork6
游客kob5psnwpork6
文章:0丨 粉丝:0丨 话题:0
游客f3levf7ifuw2w
游客f3levf7ifuw2w
文章:0丨 粉丝:0丨 话题:0
游客sb45hy5dmyni4
游客sb45hy5dmyni4
文章:0丨 粉丝:0丨 话题:0
游客3etwpidb77dx6
游客3etwpidb77dx6
文章:0丨 粉丝:0丨 话题:0
游客ganbhsd2yxddy
游客ganbhsd2yxddy
文章:0丨 粉丝:0丨 话题:0