1. 云栖社区>
  2. 全部标签>
  3. #e-mapreduce#
e-mapreduce

#e-mapreduce#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

调用OpenAPI监控E-MapReduce需要引入哪些Maven依赖

在OpenAPI Explorer 中 看调用有如下代码: 这里引入了 import com.aliyuncs.emr.model.v20160408.*; 在阿里的Maven库里看到很多emr的组件,没弄明白引用哪个依赖,有调过这块的童…

监控 Maven Image openapi e-mapreduce EMR 阿里云SDK

是否有办法在运行时获取有关SparkMetrics配置的信息

我使用CSV sinc将metrics.properties文件添加到资源目录(maven项目)。当我在本地运行Spark应用程序时,一切都很好 - 会出现指标。但是,当我向Amazon EMR提交相同的fat jar时,我没有看到任何尝试…

配置 Maven spark e-mapreduce EMR csv

EMR 5.21,Spark 2.4 - Json4s依赖性被破坏

问题在EMR 5.21中,Spark-Hbase集成被破坏。df.write.options()。format()。save()失败。原因是json4s-jackson版本3.5.3在spark 2.4,EMR 5.21 它在EMR 5.…

hbase SQL Apache spark e-mapreduce EMR

spark s3n是否支持端点类似于s3a

我现在有一个端点服务器可以正常工作在spark中的s3a文件系统,我想支持s3n://和s3://

服务器 spark e-mapreduce

在Amazon EMR中执行Zeppelin笔记本作为重复工作

我正在从Databricks迁移到Amazon EMR,并计划使用Zeppelin笔记本代替Databricks笔记本。目前,许多Databricks笔记本计划作为工作。有什么方法可以创建定期作业或添加Zeppelin笔记本作为Amazon…

e-mapreduce EMR

S3中的压缩数据需要用于EMR或Redshift上的机器学习

我在S3存储中有压缩格式的巨大CSV文件。我只需要数据中的一部分列用于机器学习目的。如何在不传输整个文件的情况下将这些列提取到EMR然后再提取到Redshift? 我的想法是将所有文件处理成EMR,然后提取子集并将所需的列推送到Redsh…

e-mapreduce Redshift EMR csv 存储

使用Airflow dag运行创建EMR群集,一旦任务完成,EMR将被终止

我有Airflow作业,它们在EMR集群上运行良好。我需要的是,假设我有4个气流工作,需要一个EMR集群让我们说20分钟完成任务。为什么我们不能在DAG运行时创建EMR集群,一旦工作完成,它将终止创建的EMR集群。

集群 e-mapreduce EMR

运行emrfs delete时出错 - 元数据“EmrFSMetadata”不存在

我们有stage / prod emr集群,我们可能需要emrfs delete s3_path通过jenkins作业在两个集群上运行命令。 但是,我可以在stage/prod emr one上成功运行emrfs delete,但在pro…

集群 scala e-mapreduce EMR metadata jenkins

为emr上的`spark-submit`作业指定marksweep gc

如何spark-submit在emr上运行作业时指定我希望jvm使用MarkSweep gc ?我可以提交作业(即spark-submit -- conf...),如果是,那么命令是什么?这是否必须由spark启动时设置,如果是,我如何在e…

jvm 配置 spark e-mapreduce EMR

如何知道亚马逊emr集群上的mapred-site值?

我遇到了内存问题,所以我查找了参数的默认值,如: mapreduce.map.memory.mbmapreduce.reduce.memory.mbmapreduce.map.java.opts在亚马逊文档上,并发现默认值很低。所以,我在…

java 配置 reduce 集群 e-mapreduce EMR Mapreduce

在CloudFormation中为EMR主节点专用IP地址创建记录

我想知道是否有办法AWS::Route53::RecordSet在CloudFormation配置中声明一个指向同一配置中定义的EMR集群上主节点的私有IP地址? CloudFormation脚本应该是不言自明的: rVPC: Type:…

VPC 配置 cluster 集群 e-mapreduce 脚本 EMR type

来自Spark的S3写入间歇性地失败,错误代码为404 NoSuchKey

我每隔5分钟写入s3的spark作业(EMR),每天都会写几次,但有以下异常。知道是什么原因引起的吗? 码: ds.write .mode("overwrite") .format("parquet") .save("s3:/…

java hadoop SQL Apache request spark scala e-mapreduce EMR thread Mapreduce

在单个EMR群集中调用多个spark作业

我想在单个EMR集群中使用spark-submit调用多个spark作业。EMR支持这个吗?怎么做到这一点?此时我使用AWS Lambda为我的spark作业调用EMR作业,但我们希望扩展到单个EMR集群中的多个spark作业。

集群 spark e-mapreduce EMR

可以将spark配置为将空数据集推断为空模式吗

我们有很多parquet数据集,按年/月/日/小时划分。 只有一个_SUCCESS文件,其中一些时间是空的。 我们实现迭代所有分区并执行工作的作业。打开空数据集时遇到问题。org.apache.spark.sql.AnalysisExce…

SQL Apache 配置 spark scala 解决方案 e-mapreduce schema type

在EMR中添加S3同步步骤

执行完所有步骤后,我想执行最后一步将S3数据复制到另一个存储桶。 我没有找到任何支持的运行shell命令的脚本 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-command…

shell 同步 e-mapreduce 脚本 EMR html 存储 Bash

使用docker exec执行主机上存在的shell脚本时出现问题

我正在尝试在AWS EMR集群的主节点上执行脚本。目的是创建一个新的conda env并将其链接到jupyter。我正在关注AWS的这个文档。问题是,无论脚本的内容是什么,我都会遇到同样的错误:bash: /home/hadoop/scr…

docker hadoop shell 集群 主机 容器 e-mapreduce 脚本 bootstrap Bash

4
GO