1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. H>
  5. hadoop 对象存储

当前主题:hadoop 对象存储

hadoop 对象存储相关的博客

查看更多 写博客

云原生日志数据分析上手指南

云原生日志数据分析上手指南 背景信息 本指南主要涉及阿里云云产品: 日志服务(SLS, https://www.aliyun.com/product/sls) 对象存储服务(OSS, https://www.aliyun.com/product/oss) D

阅读全文

Flink实战(三) - 编程范式及核心概念

1 基本的 API 概念 Flink程序是实现分布式集合转换的常规程序(例如,过滤,映射,更新状态,加入,分组,定义窗口,聚合)。最初从源创建集合(例如,通过从文件,kafka主题或从本地的内存集合中读取)。结果通过接收器返回,接收器可以例如将数据写入(分布

阅读全文

Apache Flink实战(一) - 初识Flink

了解Flink是什么,Flink应用程序运行的多样化,对比业界常用的流处理框架,Flink的发展趋势,Flink生态圈,Flink应用场景及Flink如何进行高效的Flink学习。 0 相关源码 1 前言 1.1 功能 1.2 用户 国际 国内 1.3 特点

阅读全文

阿里云智能基础产品技术月刊 2019年5月

一、商用产品技术TOP 1 阿里云GPU云服务器现已支持NVIDIA RAPIDS加速库,是国内第一家提供RAPIDS加速库服务的公有云厂商 RAPIDS,全称Real-time Acceleration Platform for Integrated Da

阅读全文

DataSimba系列之计算引擎篇

随着移动互联网、云计算、物联网和大数据技术的广泛应用,现代社会已经迈入全新的大数据时代。数据的爆炸式增长以及价值的扩大化,将对企业未来的发展产生深远的影响,数据将成为企业的核心资产。如何处理大数据,挖掘大数据的价值,让大数据为企业的发展保驾护航,将是未来信息

阅读全文

Impala——2.架构

标签(空格分隔): Impala Impala Server的组件 Impala服务器是分布式,大规模并行处理(MPP)数据库引擎。它由不同的在群集中的特定主机上运行的守护程序进程组成。 Impala守护进程 核心Impala组件是一个守护进程,它通过imp

阅读全文

零基础大数据学习框架

大数据开发最核心的课程就是Hadoop框架,几乎可以说Hadoop就是大数据开发。这个框架就类似于Java应用开发的SSH/SSM框架,都是Apache基金会或者其他Java开源社区团体的能人牛人开发的贡献给大家使用的一种开源Java框架。科多大数据大数据来

阅读全文

使用Apache Arrow助力PySpark数据处理

Apache Arrow从Spark 2.3版本开始被引入,通过列式存储,zero copy等技术,JVM 与Python 之间的数据传输效率得到了大量的提升。本文主要介绍一下Apache Arrow以及Spark中的使用方法。 列式存储简介 在介绍Spar

阅读全文

hadoop 对象存储相关问答

提问题

Spark写入流到IBM Cloud对象存储失败,“Access KEY为空。请提供有效的访问密钥“

我目前正在使用Apache Spark 2.3.2并创建一个管道来从文件系统中读取流csv文件,然后将其写入IBM Cloud对象存储。 我正在使用Stocator连接器。通过以下配置,对IBM COS的常规读取和写入工作正常。但是,读写流操作会抛出错误

阅读全文

OrcTableSource是否支持S3文件系统?

我使用OrcTableSource从云对象存储(IBM COS)获取Orc文件时遇到了一些麻烦,代码片段如下所示: OrcTableSource soORCTableSource = OrcTableSource.builder() // path to

阅读全文

MongoDB

简介编辑 MongoDB[1] 是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 mongoDB mongoDB MongoDB[2] 是一个介于关系数据库和非关系数据库之间的产品,是非关系数

阅读全文