1. 云栖社区>
  2. 全部标签>
  3. #hdfs#
hdfs

#hdfs#

已有3人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

基于Hadoop的数据分析平台搭建

企业发展到一定规模都会搭建单独的BI平台来做数据分析,即OLAP(联机分析处理),一般都是基于数据库技术来构建,基本都是单机产品。除了业务数据的相关分析外,互联网企业还会对用户行为进行分析,进一步挖掘潜在价值,这时数据就会膨胀得很厉害,一天的数据量可能会成千万或上亿,对基于数据库的传统数据分析平台的数据存储和分析计算带来了很大挑战。

hbase hdfs hadoop 性能 SQL 数据处理 数据库 数据仓库 数据分析 同步 spark 离线计算 Hive 数据同步 存储

2B场景,快速部署贴近实际生产的大数据基础平台探索

2B场景,快速部署贴近实际生产的大数据基础平台探索 Table of Contents 1. 现状与思考 1.1. 背景介绍 1.2 例子 1.2.1 hdfs docker化 1.

大数据 架构 监控 docker 服务器 hdfs 配置 镜像 集群 主机

深入理解HBase的系统架构

物理上来说,HBase是由三种类型的服务器以主从模式构成的。这三种服务器分别是:Region server,HBase HMaster,ZooKeeper。

大数据 架构 服务器 hbase hdfs 集群 负载均衡 Server 索引 zookeeper 存储 大数据开发

解决Flume采集数据时在HDFS上产生大量小文件的问题

问题:flume指定HDFS类型的Sink时,采集数据至HDFS指定目录,会产生大量小文件。   问题重现: 1、创建flume配置文件flume-env.sh,: flume配置文件如下(根据自身需要修改):     因为flume可以配置多种采集方式,每种采集方式对应一个agent配置文件,flume即通过运行agent完成采集工作,这里为了方便重现问题,直接监控整个目录。

云栖社区 数据存储与数据库 互联网产品及应用 监控 hdfs events path 配置 agent 解决方案

HDFS 原理小测

零、目录 数据存储 缓存管理 快照管理 副本放置策略 内部认证 磁盘目录服务 WebHdfsFileSystem OAuth2认证机制 其他细节 一、 数据存储 1. 内存存储(3个主类) 【默认 LAZY_PERSIST 策略】 (1)RamDiskReplicationLurTracker 类...

数据存储与数据库 分布式 hdfs 线程 配置 磁盘 存储 数据存储 big data

大数据分析系统Hadoop的13个开源工具!

hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。   用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序。

分布式 架构 storm hdfs hadoop Apache 集群 spark 解决方案 代码托管 分布式系统 Mapreduce github 大数据分析 海量数据

大数据存储平台之异构存储实践深度解读

经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。

云栖社区 大数据 hdfs 数据节点 存储 数据存储

Secondary NameNode:它究竟有什么作用?(转自:http://blog.csdn.net/xh16319/article/details/31375197)

前言 最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenode - What it really do? 才发现并不是这样。

hdfs hadoop 日志 Apache http 镜像 Server Blog

安装hue报错

User: hadoop is not allowed to impersonate hue,如:Failed to open new session: java.lang.RuntimeException: org.

java hdfs hadoop Apache open Hive session Security SUN service

刘博宇:Druid在滴滴应用实践及平台化建设

本文根据刘博宇老师在2018年5月11日【第九届中国数据库技术大会】现场演讲内容整理而成。  讲师简介:   刘博宇,滴滴出行高级软件开发工程师,就职于滴滴基础平台大数据架构部。负责Druid集群维护与研发工作。

大数据 监控 mysql hdfs 性能 数据库 配置 集群 索引 KV存储 存储 流计算

实践:大数据平台1.0总结和2.0演化路线

从3月份到现在2个月过去了,整个数据平台从0到1,算是有了一个基本的样子,跌跌撞撞的勉强支撑起运营的一些基本业务,当然这仅仅是开始,下一步还要从零打造自己的UBS系统,想想都兴奋呢!接下来总结下自己这段时间的得失,以及下一阶段的演化目标。

云栖社区 分布式 大数据 架构 算法 hdfs etl 日志 高可用 集群 平台架构 同步 解决方案 Hive 数据中心

大数据分析系统Hadoop的13个开源工具

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。 用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序。

分布式 架构 storm hdfs hadoop Apache 集群 spark 解决方案 代码托管 分布式系统 Mapreduce github 大数据分析 海量数据

EMR Druid 探索(二)

EMR Druid 探索(二) EMR Druid 上文介绍了 Druid 的特点、使用场景以及性能。EMR 在 3.11.0 引入了 Druid,并专门推出了一种新的集群类型:Druid 集群。在具体使用时,Druid 集群可以与 Hadoop 集群结合,以 HDFS 集群作为 deep storage 的存储,以 YARN 作为批量索引的计算引擎。

OSS hdfs hadoop Json 配置 集群 索引 EMR page type Bash Druid

journalnode Can't scan a pre-transactional edit log异常处理

一个测试环境hadoop集群由于磁盘满导致宕机,启动后发现journalnode报如下异常: 2018-03-19 20:48:04,817 WARN  namenode.

java hdfs hadoop LOG Apache 集群 Server 磁盘 handler Security

class kafka.common.NotLeaderForPartitionException(kafka.server.ReplicaFetcherThread)异常处理

  [2017-06-15 19:33:14,716] ERROR [ReplicaFetcherThread-0-0], Error for partition [3_7_0_20170615,6] to broker 0:class kafka.

hdfs Json node Server class zookeeper awk

使用spark分析云HBase的数据

  云HBase具有很好的在线入库和查询能力,不过在分析上面有比较大的欠缺,这篇文章主要介绍如何使用Spark对云HBase中数据做复杂分析。

hbase hdfs 性能 SQL Apache 高并发 配置 集群 spark API 存储

HDFS应用场景、原理、基本架构

HDFS是什么? 易于扩展的分布式文件系统 运行在大量普通廉价机器上,提供容错机制 为大量用户提供性能不错的文件存取服务

架构 hdfs hadoop 性能 shell path 集群 Image 分布式架构 分布式文件系统 磁盘 存储

阿里云 EMR最佳实践和容灾

阿里云EMR(Elastic MapReduce)最佳实践和容灾设计

大数据 最佳实践 hdfs 云盘 spark e-mapreduce EMR 容灾 离线分析 存储

开源大数据周刊-第86期

资讯 谷歌2018开发者大会:AI“贯穿一切”美国当地时间5月8日,谷歌I/O 2018开发者大会在美国加州山景城拉开帷幕。在本届大会上,人工智能成为贯穿全场的主题。谷歌不仅发布了新一代为机器学习定制的芯片TPU(张量处理器)、结合了AI技术的Android P系统,还升级了不少AI应用。

大数据 网络安全 hdfs 性能 人工智能 高并发 集群 开源大数据 API 分布式数据库 数据存储

搭建云服务器Hadoop集群/伪分布

Linux 系统搭建云服务器 Hadoop 集群 分为六大步骤 新增用户 下载安装 配置 SSH 免密登录 修改配置 初始化、启动与停止 一、 新增用户 hadoop useradd -d /home/hadoop -m hadoop usermod -a -G root hadoop passwd hadoop 二、 下载安装 Hadoop-3.

hdfs hadoop 云服务器 配置 集群 SSH xml Mapreduce

73
GO