1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有24人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

mapPartitions会比map快吗?

单存计算不涉及到数据库连接

大数据 spark

是否有办法在运行时获取有关SparkMetrics配置的信息

我使用CSV sinc将metrics.properties文件添加到资源目录(maven项目)。当我在本地运行Spark应用程序时,一切都很好 - 会出现指标。但是,当我向Amazon EMR提交相同的fat jar时,我没有看到任何尝试…

配置 Maven spark e-mapreduce EMR csv

EMR 5.21,Spark 2.4 - Json4s依赖性被破坏

问题在EMR 5.21中,Spark-Hbase集成被破坏。df.write.options()。format()。save()失败。原因是json4s-jackson版本3.5.3在spark 2.4,EMR 5.21 它在EMR 5.…

hbase SQL Apache spark e-mapreduce EMR

spark s3n是否支持端点类似于s3a

我现在有一个端点服务器可以正常工作在spark中的s3a文件系统,我想支持s3n://和s3://

服务器 spark e-mapreduce

为emr上的`spark-submit`作业指定marksweep gc

如何spark-submit在emr上运行作业时指定我希望jvm使用MarkSweep gc ?我可以提交作业(即spark-submit -- conf...),如果是,那么命令是什么?这是否必须由spark启动时设置,如果是,我如何在e…

jvm 配置 spark e-mapreduce EMR

来自Spark的S3写入间歇性地失败,错误代码为404 NoSuchKey

我每隔5分钟写入s3的spark作业(EMR),每天都会写几次,但有以下异常。知道是什么原因引起的吗? 码: ds.write .mode("overwrite") .format("parquet") .save("s3:/…

java hadoop SQL Apache request spark scala e-mapreduce EMR thread Mapreduce

在单个EMR群集中调用多个spark作业

我想在单个EMR集群中使用spark-submit调用多个spark作业。EMR支持这个吗?怎么做到这一点?此时我使用AWS Lambda为我的spark作业调用EMR作业,但我们希望扩展到单个EMR集群中的多个spark作业。

集群 spark e-mapreduce EMR

可以将spark配置为将空数据集推断为空模式吗

我们有很多parquet数据集,按年/月/日/小时划分。 只有一个_SUCCESS文件,其中一些时间是空的。 我们实现迭代所有分区并执行工作的作业。打开空数据集时遇到问题。org.apache.spark.sql.AnalysisExce…

SQL Apache 配置 spark scala 解决方案 e-mapreduce schema type

无法在EMR spark群集中运行python作业

我正在尝试向AWS EMR spark集群提交python作业。 我在spark-submit选项部分中的设置如下: --master yarn --driver-memory 4g --executor-memory 2g 但是,我在工…

python hdfs hadoop spark e-mapreduce IP EMR file view

使用Spark从同一区域的多个s3桶中读取

我正在尝试从多个s3存储桶中读取文件。 最初桶应该在不同的区域,但看起来这是不可能的。 所以现在我已经将另一个桶复制到与要读取的第一个桶相同的区域,这与我正在执行spark作业的区域相同。 SparkSession设置: val spar…

hadoop 函数 Apache spark e-mapreduce string service 存储

如何通过Spark SQL连接BigQuery?

data = pd.read_gbq(SampleQuery, project_id='XXXXXXXX', private_key='filename.json')这里的filename.json具有以下格式: { "type": "…

SQL Json 集群 spark e-mapreduce google metadata type

如何使用EMR上的spark有效地读取/解析s3文件夹中.gz文件的负载

我正在尝试通过在EMR上执行的spark应用程序读取s3上目录中的所有文件。 数据以典型格式存储,如“s3a://Some/path/yyyy/mm/dd/hh/blah.gz” 如果我使用深度嵌套的通配符(例如“s3a:// SomeB…

性能 spark e-mapreduce string EMR 存储

如何配置spark以便在S3中创建“_ $ folder $”条目?

当我使用时将数据帧写入S3 df.write .format("parquet") .mode("overwrite") .partitionBy("year", "month", "day", "hour", "gen", "cl…

gzip hadoop 配置 spark e-mapreduce 脚本

EMR上的Spark工作突然耗时30小时(从5小时起)

我有一个Spark作业,它运行在1个主服务器和8个核心的Amazon EMR集群上。简而言之,Spark作业从S3读取一些.csv文件,将它们转换为RDD,在RDD上执行一些相对复杂的连接,最后在S3上生成其他.csv文件。这项工作在EM…

java Apache 集群 spark scala e-mapreduce EMR list csv

28
GO