1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. H>
  5. hadoop 存储

当前主题:hadoop 存储

hadoop 存储相关的问答

国内做Hadoop大数据开发的企业,数道云大数据怎么样?

Hadoop大数据

阅读全文

Hadoop大数据计算存储服务平台的主要功能是什么?那个操作便捷好用?

Hadoop大数据计算存储服务平台

阅读全文

Hadoop技术如何实现海量数据的计算存储呢?

Hadoop技术如何实现操作?

阅读全文

如何高效率便捷的搭建Hadoop大数据平台?

便捷、高效、省成本的搭建Hadoop大数据平台?

阅读全文

为什么Hadoop大数据平台使用如此广泛?

Hadoop大数据平台的优势

阅读全文

Hadoop分布式大数据平台是如何实现数据存储计算的呢?

了解Hadoop大数据

阅读全文

使用Spark从同一区域的多个s3桶中读取

我正在尝试从多个s3存储桶中读取文件。 最初桶应该在不同的区域,但看起来这是不可能的。 所以现在我已经将另一个桶复制到与要读取的第一个桶相同的区域,这与我正在执行spark作业的区域相同。 SparkSession设置: val spa

阅读全文

在EMR中添加S3同步步骤

执行完所有步骤后,我想执行最后一步将S3数据复制到另一个存储桶。 我没有找到任何支持的运行shell命令的脚本 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-commandrunne

阅读全文

如何使用EMR上的spark有效地读取/解析s3文件夹中.gz文件的负载

我正在尝试通过在EMR上执行的spark应用程序读取s3上目录中的所有文件。 数据以典型格式存储,如“s3a://Some/path/yyyy/mm/dd/hh/blah.gz” 如果我使用深度嵌套的通配符(例如“s3a:// SomeBucket

阅读全文

[@徐雷frank][¥20]如何搭建Hadoop处理环境?

Apache Hadoop 是用于开发在分布式计算环境中执行数据处理应用程序的框架。旨在从单个服务器提供存储和计算资源的方式扩展到数千台机器。Apache Hadoop的核心部分由存储部分(Hadoop分布式文件系统)及其数据处理部分(MapReduce)组成

阅读全文

Spark写入流到IBM Cloud对象存储失败,“Access KEY为空。请提供有效的访问密钥“

我目前正在使用Apache Spark 2.3.2并创建一个管道来从文件系统中读取流csv文件,然后将其写入IBM Cloud对象存储。 我正在使用Stocator连接器。通过以下配置,对IBM COS的常规读取和写入工作正常。但是,读写流操作会抛出错误

阅读全文

[@徐雷frank][¥20]如何将kafka中的数据快速导入Hadoop?

kafka的另一个有效用途是将数据导入Hadoop。具体该如何导入呢?

阅读全文

Flink 1.5.4没有在Kubernetes中注册Google云端存储(GCS)文件系统,尽管它在docker容器中有效

我试图启动一个flink-jobmanager坚持其在GCS状态,所以我加了high-availability.storageDir: gs://BUCKET/ha一行到我flink-conf.yaml和我建立我的Dockerfile描述这里 这是我

阅读全文

flink state.backend是rocksdb,存储在hdfs上,经常遇到checkpoint执行不成功的情况 checkpoint超时过期的原因(设置checkpoint超时为60s)

flink程序在yarn上执行 kafka source topic分区为20 设置程序并行度为10,-yn 2 -ys 5 -ytm 26600 -yjm 5120,我看到网上有说是因为程序并行度太高导致打开的文件数太多,从而导致的在hdfs创建文件不成功,

阅读全文

OrcTableSource是否支持S3文件系统?

我使用OrcTableSource从云对象存储(IBM COS)获取Orc文件时遇到了一些麻烦,代码片段如下所示: OrcTableSource soORCTableSource = OrcTableSource.builder() // path to

阅读全文

将大量数据从SQL Server传输和转换为Azure SQL Server的最佳方法。Azure数据工厂,HDInsight等

我想将客户现场服务器Client上安装的SQL Server数据库中的20 GB SQL数据传输到我们的Azure SQL Server Source,在具有200 DTU性能的S4上,每月320美元。在进行初始设置时,我们设置了一个Azure数据工厂,它通过

阅读全文

spark读取parquet 找不到 org/apache/hadoop/fs/FSDataInputStream

在spark-env里加上了export SPARK_DIST_CLASSPATH=$(hadoop classpath) 也没用 有人遇到过吗

阅读全文

Airflow SparkSubmitOperator - 如何在另一台服务器中进行spark-submit

我们的airflow 调度程序和我们的hadoop集群没有设置在同一台机器上(第一个问题:这是一个好习惯吗?)。 我们有许多需要调用pyspark脚本的自动过程。那些pyspark脚本存储在hadoop集群(10.70.1.35)中。airflow da

阅读全文

Azure Flink中的src文件系统上的资源已更改

"在Azure HDInsights群集上设置flink时会出现异常。 ./bin/yarn-session.sh -n 4 -jm 1024m -tm 4096m 抛出: org.apache.flink.client.deployment.C

阅读全文

可以不通过emapreduce的管理平台使用oss存储服务吗?因为公司有一个账号但不能给我,我只能通过ssh访问给我创建的集群

可以不通过emapreduce的管理平台使用oss存储服务吗?因为公司有一个账号但不能给我,我只能通过ssh访问给我创建的集群

阅读全文

2