1. 云栖社区>
  2. 全部标签>
  3. #hdfs#
hdfs

#hdfs#

已有4人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Spark on Kubernetes与阿里云的深度整合

将Spark on Kubernetes与阿里云深度整合,设计一个开箱即用的Spark on Kubernetes镜像。

云栖社区 数据存储与数据库 系统研发与运维 监控 OSS hdfs 日志 阿里技术协会 镜像 集群 弹性伸缩 spark 对象存储 脚本 kubernete

自建 Hadoop 数据迁移到阿里云EMR集群

客户在 IDC 或者公有云环境自建 Hadoop 集群,数据集中保存在 HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建 Hadoop 集群的数据迁移到阿里云自建 Hadoop 集群或者 EMR 集群。本实践方案提供安全和低成本的 HDFS 数据迁移方案。

安全 hdfs hadoop 云服务器 集群 vpn Image 数据迁移 数据分析 对象存储 e-mapreduce EMR 公共云

MaxCompute 搬站的原理、实践以及常见问题

本文主要介绍了Hadoop到MaxCompute数据迁移的多种方式及其原理和适用场景,并着重介绍了使用MaxCompute Migrate Assist (MMA)进行数据迁移时的常见问题及解法。

大数据 java hdfs hadoop SQL Apache 配置 集群 Hive 带宽 Mapreduce MaxCompute

面对业务增长,Uber是如何扩展HDFS文件系统的

Uber将基于Hadoop的批量和流式分析应用在了广泛的场景中,例如反作弊、机器学习和ETA计算等。随着过去几年的业务增长,Uber的数据容量和访问负载也呈现了指数级增长的趋势。同时保证系统扩展能力和高性能并不是一件容易的事情,本文将详细介绍,Uber是如何通过这些改进措施来保证存储系统的持续增长、稳定和可靠的。

hdfs hadoop 性能 基础设施 集群 Image 存储

如何打造“智能助理”?阿里对话开发平台这样做| 1月13号云栖号夜读

今天的首篇文章,讲述了:一个合格的智能助理能够帮你预约开会时间,处理日常办公需求,还能打电话提醒你要还信用卡了,作为用户或者消费者,我们已经越来越习惯对话机器人提供的各色服务。但对于企业来讲,搭建提供这些服务的对话机器人是一件门槛及成本都很高的事情。

算法 hdfs 云服务器 集群 弹性计算 aliyun 分布式存储 机器人 移动互联网

阿里巴巴大规模应用Flink的踩坑经验:如何大幅降低 HDFS 压力?

Flink 是当前最为广泛使用的计算引擎之一,它使用 checkpoint 机制进行容错处理,checkpoint 会将状态快照备份到分布式存储系统,供后续恢复使用。

分布式 hdfs Image 分布式存储 SST

阿里巴巴大规模应用Flink的踩坑经验:如何大幅降低 HDFS 压力?

众所周知 Flink 是当前广泛使用的计算引擎,Flink 使用 checkpoint 机制进行容错处理[1],Flink 的 checkpoint 会将状态快照备份到分布式存储系统,供后续恢复使用。在 Alibaba 内部我们使用的存储主要是 HDFS,当同一个集群的 Job 到达一定数量后,会对 HDFS 造成非常大的压力,本文将介绍一种大幅度降低 HDFS 压力的方法 -- 小文件合并。

分布式 大数据 hdfs 分布式存储 SST 流计算 flink 实时计算 文件处理

自建Hadoop数据迁移到阿里云EMR

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建部署架构图 Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。

hdfs hadoop ECS 日志 Apache 配置 镜像 安全组 集群 vpn 系统盘 Image 数据迁移 控制台 EMR

HBase 2.0.0 META 数据修复工具

HBase 2.0.0 META 数据修复工具 分享给那些使用了hbase2.0.0 因其他原因无法升级 又被坑的小伙伴们

云栖社区 hbase hdfs shell Server string hbck

解密 云HBase 冷热分离技术原理

前言 HBase是当下流行的一款海量数据存储的分布式数据库。往往海量数据存储会涉及到一个成本问题,如何降低成本。常见的方案就是通过冷热分离来治理数据。冷数据可以用更高的压缩比算法(ZSTD),更低副本数算法(Erasure Coding),更便宜存储设备(HDD,高密集型存储机型)。

数据存储与数据库 大数据 java NOSQL OSS hbase hdfs 性能 集群 索引 磁盘 存储

大数据安全系统

产品简介中安威士大数据安全平台(VS-BDSG)专注于为大数据环境的数据资产提供一系列的审计、访问控制、加密、脱敏等保护措施及管控,对数据的收集、加工、存储、应用等全生命周期的每个环节进行自动监测和实时处理。

大数据 安全 算法 hbase hdfs 加密 性能 数据库 安全平台 配置 数据安全 安全防护 Hive 数据库安全 数据库审计

CDH集群部署最佳实践

一、集群规划 如果你正准备从0开始搭建一套CDH集群应用于生产环境,那么此时需要做的事情应该是 结合当前的数据、业务、硬件、节点、服务等对集群做合理的规划,而不是马上动手去安装软件。 合理的集群规划应该做到以下几点: 充分了解当前的数据现状 与业务方深入沟通,了解将会在集群上运行的业务,集群将会...

大数据 服务器 mysql hbase hdfs hadoop Apache shell path 配置 集群 主机 rpm spark cdh

Spotify如何使用Cassandra实现个性化推荐

本文翻译自https://labs.spotify.com/2015/01/09/personalization-at-spotify-using-cassandra/在Spotify我们有超过6000万的活跃用户,他们可以访问超过3000万首歌曲的庞大曲库。

互联网产品及应用 大数据 架构 storm 服务器 hdfs 个性化推荐 集群 解决方案 Cassandra 数据中心 存储 kafka 用户画像

Cloudera-manager(CDH6.3.0)大数据平台搭建一指禅(impala,kudu,hdfs,hive,kafka,yarn,spark,hbase,hue)

Cloudera-manager(CDH6.3.0)大数据平台搭建一指禅指南(impala,kudu,hdfs,hive,kafka,yarn,spark,hbase,hue) CHD6,大量hadoop生态的重大更新升级,果断把现有系统升级到CHD6上。

大数据 java mysql hbase hdfs hadoop Processing centos rpm spark Hive Transaction postfix service

CDH在云上利用文件存储HDFS实现存储计算分离

阿里云文件存储HDFS服务是阿里云专门针对先进的存储计算分离架构下的大数据分析场景定制推出的文件存储服务。文件存储HDFS采用全自研的底层架构,有效规避了开源HDFS系统的诸多短板,并提供标准的HDFS访问协议,用户无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、高可靠和高可用等特性的托管型分布式文件系统。

架构 hdfs hadoop 性能 配置 集群 测试 spark 分布式文件系统 离线分析 存储 cloudera 存储计算分离

Tez计算引擎,写入数据特别慢的原因?

hadoop集群使用tez作为计算引擎,但是计算结果最后写入hdfs时(orc文件),特别慢,谁知道原因吗?怎么解决这个问题。万分感谢!

云栖社区 大数据 分布式系统与计算 hdfs hadoop 集群

数据中台的存储系统和计算平台枚举

作者:向师富 转自:阿里巴巴数据中台官网 https://dp.alibaba.com采集&传输层 SqoopHadoop、关系型数据库之间传输数据的工具。传输时,会启动多个MR作业并发的传输数据 DataX阿里巴巴开源的数据同步工具,用来在各种异构数据源之间同步数据。

分布式 大数据 消息队列 hbase hdfs hadoop 日志 Apache 数据处理 数据库 数据仓库 spark solr 离线计算 存储

95
GO