1. 云栖社区>
  2. 全部标签>
  3. #hdfs#
hdfs

#hdfs#

已有4人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

数据湖架构,为什么需要“湖加速”?

在开源大数据领域,存储/计算分离已经成为共识和标准做法,数据湖架构成为大数据平台的首要选择。基于这一范式,大数据架构师需要考虑三件事情: 第一,选择什么样的存储系统做数据湖(湖存储)? 第二,计算和存储分离后,出现了性能瓶颈,计算如何加速和优化(湖加速)? 第三,针对需要的计算场景,选择什么样的计算引擎(湖计算)? 湖存储可以基于我们熟悉的HDFS,在公共云上也可以选择对象存储,例如阿里云OSS。

大数据 架构 OSS hdfs hadoop 性能 集群 对象存储 带宽 存储

基于JindoFS+OSS构建高效数据湖

为什么要构建数据湖 大数据时代早期,Apache HDFS 是构建具有海量存储能力数据仓库的首选方案。随着云计算、大数据、AI 等技术的发展,所有云厂商都在不断完善自家的对象存储,来更好地适配 Apache Hadoop/Spark 大数据以及各种 AI 生态。

大数据 OSS hdfs hadoop 性能 c++ 高可用 集群 spark 对象存储 高性能 磁盘 存储

使用 E-MapReduce 构建云上数据胡

本篇来自于阿里巴巴E-MapReduce(简称为EMR)产品经理子关,分享云上使用E-MapReduce快速构建企业数据湖的落地方案以及客户最佳实践。

深度学习 大数据 架构 飞天 OSS hdfs 性能 集群 弹性伸缩 对象存储 e-mapreduce EMR 权限管理 存储

字节跳动基于 Flink 的 MQ-Hive 实时数据集成

在数据中台建设过程中,一个典型的数据集成场景是将 MQ (Message Queue,例如 Kafka、RocketMQ 等)的数据导入到 Hive 中,以供下游数仓建设以及指标统计。由于 MQ-Hive 是数仓建设第一层,因此对数据的准确性以及实时性要求比较高。

架构 hdfs 解决方案 Hive 容灾 source 存储

有哪些大数据处理工具?

本文分享作者在大数据系统实践过程中接触过的一些工具及使用感受,抛砖引玉,和同学们一起构建一个分布式产品的全景图。

分布式 大数据 hbase hdfs hadoop Apache Image spark Hive Mapreduce 存储

带你入坑大数据(二) --- HDFS的读写流程和一些重要策略

HDFS的读写流程分析,高可用和联邦的一些简短说明

大数据 hdfs 集群 Create checksum 存储

HDFS的基础总结及架构演进

分散存储,冗余存储,机架存储···等概念及HDFS的演进

安全 架构 hdfs 集群 负载均衡 单点故障 磁盘 zookeeper 存储

再出王牌:阿里云 Jindo DistCp 全面开放使用,成为阿里云数据迁移利器

此前 Jindo DistCp 仅限于E-MapReduce产品内部使用,此次全方位面向整个阿里云OSS/HDFS用户放开,并提供官方维护和支持技术,欢迎广大用户集成和使用。

分布式 大数据 OSS hdfs hadoop 性能 配置 集群 测试 数据迁移 钉钉 aliyun 对象存储 存储

7月2日 JindoFS 系列直播【Hadoop 小文件/冷文件分析】

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。

大数据 hdfs hadoop 性能 钉钉

文件存储 HDFS添加挂载点前提条件及步骤

挂载点是文件系统实例在专有网络或经典网络内的一个访问目标地址,每个挂载点都对应一个域名,ECS和容器需要通过此域名访问文件存储HDFS中的数据。文件存储HDFS目前只支持专有网络类型挂载点。

域名 hdfs ECS 配置 容器 控制台 aliyun 存储

97
GO