1. 云栖社区>
  2. 全部标签>
  3. #hadoop#
hadoop

#hadoop#

已有18人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

SparkContext无法以master设置为“Yarn”开始

我试图在Scala API(Play框架)中运行SparkContext。当我将Spark master设置为“local”时,它工作正常,但是,当我将master设置为“YARN”时,它会引发异常: [SparkException: Y…

native hadoop Apache 容器 spark

Spark写入流到IBM Cloud对象存储失败,“Access KEY为空。请提供有效的访问密钥“

我目前正在使用Apache Spark 2.3.2并创建一个管道来从文件系统中读取流csv文件,然后将其写入IBM Cloud对象存储。 我正在使用Stocator连接器。通过以下配置,对IBM COS的常规读取和写入工作正常。但是,读写…

java hadoop Cloud SQL Apache path spark scala 对象存储 exception Access IBM

对spark2.4来说Hadoop的最佳版本

我已经安装了spark2.4,我想知道应该选择哪个最佳版本

hadoop spark

[@小川游鱼][¥20]我用hue执行hive SQL的时候 hbase报connectionException

我用hue 执行hivesql 的时候系统报错,java.net.SocketTimeoutException:callTimeout=60000, callDuration=68043: row 'log,,00000000000000…

数据存储与数据库 java hbase hadoop SQL Apache exception Hive

当yarn崩溃时恢复Flink

我正在EMR上运行一个Yarn3节点集群(1个Master 2 Core节点)。我使用的是1.6.0。我启用了检查指向(rocksdb),写入S3。检查指向似乎在其他测试中正常工作。在主节点上Yarn崩溃的情况下,我无法从最后一个检查点恢…

java hadoop Apache runtime scala Akka file flink

OrcTableSource是否支持S3文件系统?

我使用OrcTableSource从云对象存储(IBM COS)获取Orc文件时遇到了一些麻烦,代码片段如下所示: OrcTableSource soORCTableSource = OrcTableSource.builder() //…

java hadoop Apache path runtime 对象存储 string open class thread csv flink

如何通过livy Programmatic API提交批处理jar Spark作业

我想使用livy Programmatic API提交批处理jar Spark作业,就像使用其他API批处理一样,我有json数据 { "className": "org.apache.spark.examples.SparkPi", "…

hdfs hadoop Json Apache spark BY API file flink

[@徐雷frank][¥20]如何搭建Hadoop处理环境?

Apache Hadoop 是用于开发在分布式计算环境中执行数据处理应用程序的框架。旨在从单个服务器提供存储和计算资源的方式扩展到数千台机器。Apache Hadoop的核心部分由存储部分(Hadoop分布式文件系统)及其数据处理部分(Ma…

大数据 服务器 hadoop Apache 数据处理 分布式计算 分布式文件系统 Mapreduce 存储

[@徐雷frank][¥20]如何将kafka中的数据快速导入Hadoop?

kafka的另一个有效用途是将数据导入Hadoop。具体该如何导入呢?

数据存储与数据库 hadoop

Jupyter笔记本,pyspark,hadoop-aws问题

我正在尝试一起使用Jupyter,PySpark和S3文件(通过s3a协议)。我需要org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider,因为我们需要使用s3会话令牌。这被添加到…

java hadoop Apache 集群 spark Driver class file

将数据集<行>导出为CSV

我正在尝试根据一些Spark SQL结果生成CSV文件。 我试图填补所有空值,但徒劳无功。似乎与我正在配置它的方式有关。 这是我正在运行的代码。 SparkSession spark = SparkSession.builder().ap…

java hadoop SQL Apache shell spark scala Create source csv

Hadoop Spark docker swarm其中pyspark给出BlockMissingException但文件很好

基于https://github.com/gotthardsen/docker-hadoop-spark-workbench/tree/master/swarm我有一个带有hadoop,spark,hue和jupyter笔记本设置的doc…

docker hdfs hadoop spark read csv

在Spark Stream中保存PairRdd时出错[重复]

我试图在spark流中保存我的Pair Rdd但在最后一步保存时出错。 这是我的示例代码 def main(args: Array[String]) { val inputPath = args(0) val output = args(…

hadoop Apache spark string stream input

安装后无法执行pyspark

我已手动复制spark-2.4.0-bin-hadoop2.7.tgz并提取。然后我进入.bash_profile如下: export SPARK_HOME = / Users / suman / Pyspark / spark-2.4.…

python java hadoop Apache spark scala string exception file Security

如何在AWS Glue中导入Spark包?

我想使用GrameFrames包,如果我在本地运行pyspark,我会使用命令: ~/hadoop/spark-2.3.1-bin-hadoop2.7/bin/pyspark --packages graphframes:graphfra…

hadoop spark 脚本

PySpark-如何使用Pyspark计算每个字段的最小值,最大值?

我试图找到sql语句产生的每个字段的最小值,最大值,并将其写入csv文件。我试图以下面的方式得到结果。能否请你帮忙。我已经用python编写了,但现在尝试将其转换为pyspark直接在hadoop集群中运行 from pyspark.sq…

python hadoop SQL 集群 spark string mean

Spark从本地文件流式传输到hdfs。textFileStream

我正在尝试将本地目录内容流式传输到HDFS。脚本将修改此本地目录,并且每5秒添加一次内容。我的spark程序将流式传输本地目录内容并将其保存到HDFS。但是,当我开始流式传输时,没有任何事情发生。我检查了日志,但我没有得到提示。 让我解释…

hdfs hadoop spark 脚本 timestamp file

使用AvroParquetWriter将flink接收到parquet文件不会将数据写入文件

我正在尝试使用AvroParquetWriter将parquet文件写为接收器。文件已创建但长度为0(未写入数据)。无法清楚问题在哪里? import io.eels.component.parquet.ParquetWriterConf…

hadoop Apache path scala stream PUT schema source flink

在yarn上运行Flink 1.5

我们在hadoop 2.6集群上运行Flink 1.5.0 Yarn会话。./bin/yarn-session.sh -n 4 -jm 1024 -tm 4096 -qu然而,这并没有启动任何任务管理员。日志说Flink JobManage…

hadoop 日志 web 集群 flink

Flink Shaded Hadoop S3文件系统仍然需要hdfs-default和hdfs-site配置路径

我正在尝试使用Flink 1.6.0将S3配置为我的状态后端。 flink-conf.yamlstate.backend: filesystemstate.checkpoints.dir: s3://*/flink-checkpoints…

java hdfs hadoop Apache 配置 runtime Core xml file flink

上一页 1 ... 3 4 5 6 7 ... 15 下一页
15
GO