1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有24人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

通过spark-thriftserver读取hive表执行sql时,tasks 数量怎么设置

我在使用spark-thriftserver的方式,通过beeline执行sql的时候,thriftserver会扫描所查询hive表的所有分区(hdfs上面的路径)然后有多少个路径,就会自动生成多少个task,这个task的数量可以调整吗…

hdfs SQL spark Hive

spark消费kafka 从kafka拉取数据部分Task特变慢

项目中使用了sparkStreaming去消费kafka中的数据。 发现了个问题,kafka一共30个分区,会起30个Task去拉取数据。在某些消费批次中会有个别Task从Kafka分区中拉取数据特别慢比别的Task慢了近10倍。直接拖慢…

大数据 spark kafka

求教下,spark根据时间戳去重,比如某个id假如在最近15min内出现过就认为是重复曝光,然后去掉,有啥好的实现方式不?[感谢]

求教下,spark根据时间戳去重,比如某个id假如在最近15min内出现过就认为是重复曝光,然后去掉,有啥好的实现方式不?我现在想的是搞个map去存他的时间戳,然后来一条就去看下,15min内就去掉,15min外就更新下这个时间戳,但是觉得…

hbase spark

请问relational cache 与apache ignite有什么区别?

请问relational cache 与apache ignite有什么区别?

Apache Cache spark

spark根据df动态创建cassandra的表怎么搞?

spark根据df动态创建cassandra的表怎么搞?

spark Cassandra

spark从cassandra的某个表中取出部分列的数据怎么写? 这样的话岂不是只能先把全部数据加载出来才过滤?

spark从cassandra的某个表中取出部分列的数据怎么写? 这样的话岂不是只能先把全部数据加载出来才过滤?

spark Cassandra 社区大群

问一个问题哈,在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口,今天测试了一下 两个不同的序列号借口,发现并没有性能提升,我用的sparksql跑的测试,设计多个join操作,input量为270G , 这个为什么对性能没有提升呢? 有大佬做过这方面的研究吗

问一个问题哈,在spark中默认使用java serialization ,但同时也提供了 kryo 序列化借口,今天测试了一下 两个不同的序列号借口,发现并没有性能提升,我用的sparksql跑的测试,设计多个join操作,input量为…

java 性能 测试 spark input

说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

spark Hive

spark Sql都是client模式,而有时driver需要较多的资源,多用户共享一台机器时,client物理机资源可能会成为瓶颈,这个你们有什么解决方案吗

spark Sql都是client模式,而有时driver需要较多的资源,多用户共享一台机器时,client物理机资源可能会成为瓶颈,这个你们有什么解决方案吗

SQL spark 解决方案 Driver

我有个问题想请教一下, 对于spark处理小文件,有没有什么优化方法

我有个问题想请教一下, 对于spark处理小文件,有没有什么优化方法

spark

在maxcompute下提交原生pyspark任务 报错odps-0420031 具体情况如下

刚刚开始接触阿里云大数据开发平台,通过官方文档看到,是完全支持原生spark的任务的提交,于是按照文档的环境配置,搭建了spark-2.3.0版本的客户端环境,但是在提交任务的过程中,已local[N]的模式提交,运行spark下的exa…

python 大数据 配置 odps 测试 spark 脚本 xml MaxCompute

spark streaming读取loghub数据报错LogHubClientWorkerException: consumer group is not agreed, AlreadyExistedConsumerGroup,是什么情况

com.aliyun.openservices.loghub.client.exceptions.LogHubClientWorkerException: consumer group is not agreed, AlreadyExist…

实时系统 spark aliyun Consumer Group

Spark 【问答合集】

如何使用spark将kafka主题中的writeStream数据写入hdfs?https://yq.aliyun.com/ask/493211当Spark在S3上读取大数据集时,在“停机时间”期间发生了什么?https://yq.aliy…

大数据 hdfs 函数 Json 集群 问答 控制台 spark aliyun DataFrame ask stream Hive 流数据

各位大佬有遇到过类似问题吗,求指导

有一台提交机器挂了,然后用新机器把原来的配置和jar全拷贝过来,感觉都是一样的

配置 spark

spark将分析好的数据插入mysql,怎么判断重复

spark将分析好的数据插入mysql,怎么判断重复

mysql hbase spark

使用spark streaming连接loghub报错,是什么问题

"main" java.lang.ClassNotFoundException: Failed to find data source: loghub. Please find packages at http://spark.apach…

大数据 java native SQL Apache spark scala SUN

大神10亿数据查询在小于10秒怎么办?有没有什么好的解决方案呢?

大神10亿数据查询在小于10秒怎么办?有没有什么好的解决方案呢?

spark 解决方案

请问:spark 处理 hive 仓库数据,用sparksql 好?还是hivesql好?sparksql 操作hive 的分区分桶表麻烦吗?

请问:spark 处理 hive 仓库数据,用sparksql 好?还是hivesql好?sparksql 操作hive 的分区分桶表麻烦吗?

hbase spark Hive

kafka 的broker日志中出现Too many open files ,这个大家有谁碰到过吗

我ulimit -a出来 open files 有20W限制的。。。这个的话,还要怎么调额。。

日志 spark open ulimit

28
GO