1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有24人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

通过spark-thriftserver读取hive表执行sql时,tasks 数量怎么设置

我在使用spark-thriftserver的方式,通过beeline执行sql的时候,thriftserver会扫描所查询hive表的所有分区(hdfs上面的路径)然后有多少个路径,就会自动生成多少个task,这个task的数量可以调整吗…

hdfs SQL spark Hive

spark消费kafka 从kafka拉取数据部分Task特变慢

项目中使用了sparkStreaming去消费kafka中的数据。 发现了个问题,kafka一共30个分区,会起30个Task去拉取数据。在某些消费批次中会有个别Task从Kafka分区中拉取数据特别慢比别的Task慢了近10倍。直接拖慢…

大数据 spark kafka

在maxcompute下提交原生pyspark任务 报错odps-0420031 具体情况如下

刚刚开始接触阿里云大数据开发平台,通过官方文档看到,是完全支持原生spark的任务的提交,于是按照文档的环境配置,搭建了spark-2.3.0版本的客户端环境,但是在提交任务的过程中,已local[N]的模式提交,运行spark下的exa…

python 大数据 配置 odps 测试 spark 脚本 xml MaxCompute

spark streaming读取loghub数据报错LogHubClientWorkerException: consumer group is not agreed, AlreadyExistedConsumerGroup,是什么情况

com.aliyun.openservices.loghub.client.exceptions.LogHubClientWorkerException: consumer group is not agreed, AlreadyExist…

实时系统 spark aliyun Consumer Group

使用spark streaming连接loghub报错,是什么问题

"main" java.lang.ClassNotFoundException: Failed to find data source: loghub. Please find packages at http://spark.apach…

大数据 java native SQL Apache spark scala SUN

hi,有人配置过 spark.streaming.dynamicAllocation.enabled这个参数吗,这个参数对spark streaming会生效,但是没找到文档说spark structured streaming 是否会生效

有人配置过 spark.streaming.dynamicAllocation.enabled这个参数吗,这个参数对spark streaming会生效,但是没找到文档说spark structured streaming 是否会生效

配置 spark

问个问题,java怎么使用广播变量广播dateframe 1.6版本

问个问题,java怎么使用广播变量广播dateframe 1.6版本

java spark

请教一下,spark sql 执行比如select * from table where day >='2018-05-04' 后面限定过滤后的具体partition访问 源码里是在哪个阶段哪个函数获取的

请教一下,spark sql 执行比如select * from table where day >='2018-05-04' 后面限定过滤后的具体partition访问 源码里是在哪个阶段哪个函数获取的

函数 SQL 源码 spark

阿里云大数据型机器组集群网络不稳定

阿里云大数据型机器组集群网络问题,跑Spark经常出现Connection refuse导致的stage retry。社区有同学遇到过吗?这种怎么定位排查,或者提交阿里云人员处理?

故障方案 大数据 集群 spark big data 云服务器ECS

mapPartitions会比map快吗?

单存计算不涉及到数据库连接

大数据 spark

PAI-studio中线性回归算法组件的参数设置“最小似然误差设置”是如何计算出来的?

log-likehood是怎么算出来的?是直接通过spark mllib或者sklearn有直接的第三方包或API直接计算吗?

python 大数据 算法 spark API MLlib

大佬们,请教下structed streaming 时 checkpoint 频繁在HDFS写小文件,这个一般是怎么处理的?

大佬们,请教下structed streaming 时 checkpoint 频繁在HDFS写小文件,这个一般是怎么处理的?

hdfs spark

编译spark2.4.0 遇到这个问题

编译spark2.4.0 遇到这个问题 [ERROR] Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile (scala-compile-f…

Apache Maven spark

spark操作mongodb遇到的问题

com.mongodb.spark.exceptions.MongoTypeConversionException: Cannot cast null into a StringType

MongoDB spark 云数据库MongoDB版

Apache Spark JSON读取错误 - java.lang.IllegalArgumentException:非法模式组件:XXX

maquillaje de novia en Shibuy","price":"80","genderProduct":"F","socialUsage":"1","ageUsage":"2,3","dailyDeal":"true","…

java Json Apache spark

spark streaming和kafka集成的时候,auto commit offset设置位false,存储这个offset,大家是怎么做的啊?

1、一个rdd处理完去更新一下吗?还是rdd里的一个msg处理完就更新?那会不会有问题啊?比如rdd拿了n个msg,处理到m(n2、拿出来处理了,然后插到mysql里,失败了,你让我把rdd中前面的m-1个都从mysql里删除掉?你失败了那…

云栖社区 数据存储与数据库 spark Commit 存储

spark streaming on yarn形式提交应用到yarn,日志会一直不停的打runnning

有没有提交完以后,打出来一些汇总日志,就直接关闭的方法flink on yarn有一个-yd

云栖社区 数据存储与数据库 日志 spark

E-MapReduce提交Hadoop程序时的详细参数

按阿里云官方文档配的参数,任务还是提交时报错。。。能给我一个详细的参数配置吗。。jar oss://my-emr-test/examples-1.1.jar com.aliyun.emr.example.spark.WordCount Dw…

大数据 OSS hadoop 配置 spark aliyun e-mapreduce EMR input

Scala问答集锦

Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala把Erlang风格的基于actor的并发带进了JVM。开发者可以利用Scala的actor模型在…

云栖社区 编程语言 java HTTPS c++ 面向对象编程 问答 spark scala aliyun ask

2
GO