1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. H>
  5. hadoop存储架构

当前主题:hadoop存储架构

hadoop存储架构相关的博客

查看更多 写博客

环形缓冲区-Hadoop Shuffle过程中的利器

这篇文章来自一个读者在面试过程中的一个问题,Hadoop在shuffle过程中使用了一个数据结构-环形缓冲区。 环形队列是在实际编程极为有用的数据结构,它是一个首尾相连的FIFO的数据结构,采用数组的线性空间,数据组织简单。能很快知道队列是否满为空。能以很快

阅读全文

购买阿里云ECS服务器实例规格型号、功能、型号级别介绍及选择

阿里云服务器ECS服务器不同与传统物理服务器,ecs服务器在购买的时候分为很多实例规格族。那么到底有哪些实例规格族呢?再者那种实例规格族适用于我?很多初次购买阿里云服务器用户在选择的时候往往不知道如何选择。 在具体选购过程中,要是我们不清楚怎样挑选具体的硬件

阅读全文

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

作者:辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结

阅读全文

DataLakeAnalysis: 使用DataX同步Kafka数据到OSS进行分析

平常业务开发中我们经常有流式数据保存在Kafka里面,这部分数据很多场景也是需要分析的,今天给大家介绍下如果使用DataX把数据从Kafka同步到OSS,保存成对分析友好的Parquet格式,然后利用DLA进行分析的全流程。 为了后续叙述的方便,我们假设Ka

阅读全文

DataWorksV3.0全新发布,新特性快速一览

DataWorks V3.0发布 • 发布版本:DataWorks V3.0 • 发布时间:2019年12月18日 • 发布范围:全球所有已开通DataWorks的地域 • 发布内容:DataWorks V2.0仅支持MaxCompute计算引擎,DataW

阅读全文

百万TPS高吞吐、秒级低延迟,阿里​搜索离线平台如何实现?

导读:阿里主搜(淘宝天猫搜索)是搜索离线平台非常重要的一个业务,具有数据量大、一对多的表很多、源表的总数多和热点数据等特性。对于将主搜这种逻辑复杂的大数据量应用迁移到搜索离线平台总是不缺少性能的挑战,搜索离线平台经过哪些优化最终实现全量高吞吐、增量低延迟的呢

阅读全文

面对业务增长,Uber是如何扩展HDFS文件系统的

3年前,Uber采用了Hadoop作为大数据分析的存储(HDFS)和计算(YARN)基础设施。借助于这套系统,Uber的服务能力得到了增强,用户体验也得到了提升。 Uber将基于Hadoop的批量和流式分析应用在了广泛的场景中,例如反作弊、机器学习和ETA计

阅读全文

购买阿里云ECS服务器实例规格型号、功能、型号级别介绍及选择

阿里云服务器ECS服务器不同与传统物理服务器,ecs服务器在购买的时候分为很多实例规格族。那么到底有哪些实例规格族呢?再者那种实例规格族适用于我?很多初次购买阿里云服务器用户在选择的时候往往不知道如何选择。 在具体选购过程中,要是我们不清楚怎样挑选具体的硬件

阅读全文

hadoop存储架构相关问答

提问题

企业大数据平台仓库架构建设思路【精品问答集锦】

本期请来了阿里云高级技术专家李金波(介然)直播分享企业大数据平台仓库架构建设思路 直播简介 随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。作为大数据应用的基础-数

阅读全文

MongoDB

简介编辑 MongoDB[1] 是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 mongoDB mongoDB MongoDB[2] 是一个介于关系数据库和非关系数据库之间的产品,是非关系数

阅读全文