社区小助手 + 关注
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

社区小助手 参与了问答:

请问relational cache 与apache ignite有什么区别?

请问relational cache 与apache ignite有什么区别?

“很不错的问题。我知道的就是 relational cache 是基于 Spark 来做的,Spark 上直接用,不需要另外一堆服务。Ignite 自己是一套跟 Spark 可以对等的服务。”

社区小助手 参与了问答:

我有个问题想请教一下, 对于spark处理小文件,有没有什么优化方法

我有个问题想请教一下, 对于spark处理小文件,有没有什么优化方法

“你们是用 spark streaming 处理数据最后实时写为 parquet 文件,然后推荐系统会用这些实时处理的数据,是这样的吧?(是的,需求是这样)那推荐系统怎么用这些数据,具体是用什么工具知道...查看全部>

社区小助手 参与了问答:

问一个问题哈,在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口,今天测试了一下 两个不同的序列号借口,发现并没有性能提升,我用的sparksql跑的测试,设计多个join操作,input量为270G , 这个为什么对性能没有提升呢? 有大佬做过这方面的研究吗

问一个问题哈,在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口,今天测试了一下 两个不同的序列号借口,发现并没有性能提升,我用的sparksql跑的测...

“2.0开始,shuffle的时候已经默认为 kryo 序列化了”

社区小助手 参与了问答:

说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

“碎片文件比较多的时候比较花费时间。用户可以设置参数,关闭合并,避免影响下游任务运行。等表不被使用了某个时间点用户自己去合并。”

社区小助手 参与了问答:

spark Sql都是client模式,而有时driver需要较多的资源,多用户共享一台机器时,client物理机资源可能会成为瓶颈,这个你们有什么解决方案吗

spark Sql都是client模式,而有时driver需要较多的资源,多用户共享一台机器时,client物理机资源可能会成为瓶颈,这个你们有什么解决方案吗

“可以用livy来提交spark-cluster的application,然后客户提交给livy,这块我们也做了一些工作”

社区小助手 参与了问答:

各位大佬有遇到过类似问题吗,求指导

有一台提交机器挂了,然后用新机器把原来的配置和jar全拷贝过来,感觉都是一样的

“hadoop core 吧,自己去搜搜, 配置文件这个类的再哪个jar里”

社区小助手 参与了问答:

大神10亿数据查询在小于10秒怎么办?有没有什么好的解决方案呢?

大神10亿数据查询在小于10秒怎么办?有没有什么好的解决方案呢?

“放es里最省事~”

社区小助手 参与了问答:

kafka 的broker日志中出现Too many open files ,这个大家有谁碰到过吗

我ulimit -a出来 open files 有20W限制的。。。这个的话,还要怎么调额。。

“配的是host 还是 ip呢?换成ip就好了,host有异常的时候,没有清理文件”

社区小助手 参与了问答:

问一个问题,有大神帮忙解答一下?spark如果在单机local模式下物化一张表,这个表会被物化到哪里去了

集群上面会到hive,这个我知道,单机呢

“show create和desc一下就知道了”

社区小助手 参与了问答:

“看日志,点进去看”

社区小助手 参与了问答:

请问一下,livy配置spark,操作hive的表,..我现在黑框pyspark中,可以操作hive的表, livy的livy.repl.enableHiveContext = true

还是没有生效有大佬遇到过这个坑吗,可以提示一下吗?

“notebook提交参数里没有包含hive-site吧”

社区小助手 参与了问答:

大佬们,hive添加自定义udf出现权限问题,有谁遇到过没?

我们这hive整合sentry,由sentry去控制的。sentry没办法对这个授权

“sentry官网介绍过,限制了 udf 的使用,因为有漏洞。使用sentry之后 无法 临时 add jar,需要启动时加载jar包”

社区小助手 参与了问答:

请教大家一个问题: spark on yarn 内存溢出 除了增加driver内存以外还有什么好的解决方案吗?

我现在一个清洗程序 从kafka读取消息 然后处理 然后写入kafka sink。 driver 给了它4G 还报内存溢出,我查了下内存溢出那时段的数据是比较少的。 一分钟最多100条。

“除非是collect把数据都收集起来,driver内存需要比较大,一般是 分布式处理 都是在executor上面的”

社区小助手 参与了问答:

请问standalone模式如何优化性能,容易内存不足,报空指针异常

spark没依赖hadoop,单独部署了

“此模式一般是测试代码用?生产环境是否才有优化性能的必要?所以executor节点 无法读取本地磁盘的hdfs文件?”

社区小助手 参与了问答:

“driver影响的时候最后collect阶段聚合,collect阶段是否要在本地聚合,如果必须的话 可以考虑自己在任务最后写一个类或者函数单独处理,非必需 就直接在mr阶段处理掉。driver内存问题...查看全部>

社区小助手 参与了问答:

Elasticsearch-spark依赖读取es数据的时候需要配置es的哪些参数,有没有代码参考参考,es版本是5.4.3 elasticsearch-spark也是5.4.3的

Elasticsearch-spark依赖读取es数据的时候需要配置es的哪些参数,有没有代码参考参考,es版本是5.4.3 elasticsearch-spark也是5.4.3的本问题及下方已被采纳...

“官网有的 很详细,不外乎就是 host,端口,index,如果商业版本有权限 带上就行”

社区小助手 参与了问答:

请教一下,报GC错误,这个怎么设置参数啊

请教一下,报GC错误,这个怎么设置参数啊本问题及下方已被采纳的回答均来自云栖社区【Apache Spark中国技术交流群】。https://yq.aliyun.com/articles/690084 ...

“我部署hbase2.1.4时报这个问题怎么解决呀,hadoop 2.7.7,我看了一下,应该不是版本的问题”
4
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

感兴趣or擅长的领域:

更多>
阿里云支持与服务
阿里云支持与服务
文章:189丨 粉丝:1396丨 话题:1
云栖公开课
云栖公开课
文章:1丨 粉丝:586丨 话题:1
管理贝贝
管理贝贝
文章:60丨 粉丝:3038丨 话题:11
王爽wasugar
王爽wasugar
文章:0丨 粉丝:2085丨 话题:0
小扑
小扑
文章:11丨 粉丝:972丨 话题:0
健身不健身
健身不健身
文章:3丨 粉丝:797丨 话题:0
更多>
游客6bibmiqjrdjn4
游客6bibmiqjrdjn4
文章:0丨 粉丝:0丨 话题:0
游客ifnwkhgun5x2s
游客ifnwkhgun5x2s
文章:0丨 粉丝:0丨 话题:0
游客m55b5g2x4iqog
游客m55b5g2x4iqog
文章:0丨 粉丝:0丨 话题:0
游客hu5dka53atdmk
游客hu5dka53atdmk
文章:0丨 粉丝:0丨 话题:0
biglau
biglau
文章:0丨 粉丝:0丨 话题:0
游客ko5cq4gcvivzg
游客ko5cq4gcvivzg
文章:0丨 粉丝:0丨 话题:0