1. 云栖社区>
  2. 全部标签>
  3. #hdfs#
hdfs

#hdfs#

已有4人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

好程序员大数据培训分享Apache-Hadoop简介

  好程序员大数据培训分享Apache-Hadoop简介,一、Hadoop出现的原因:现在的我们,生活在数据大爆炸的年代。国际数据公司已经预测在2020年,全球的数据总量将达到44ZB,经过单位换算后,至少在440亿TB以上,也就是说,全球每人一块1TB的硬盘都存储不下。

分布式 大数据 hdfs hadoop 程序员 Apache 集群 排序 分布式文件系统 培训 Mapreduce 存储 数据存储

好程序员大数据培训分享之HDFS设计思想和相关概念

  好程序员大数据培训分享之HDFS设计思想和相关概念:一、HDFS简介   1、简单介绍   HDFS(Hadoop Distributed FileSystem),是Hadoop项目的两大核心之一,源自于Google于2003年10月发表的GFS论文,是对GFS的开源实现。

大数据 服务器 hdfs 程序员 数据节点 分布式文件系统 磁盘 培训 存储

好程序员大数据培训分享之Hadoop的生态系统

  好程序员大数据培训分享之Hadoop的生态系统,这次,我整理了一下hadoop的生态系统。hadoop生态系统,意思就是以hadoop为平台的各种应用框架,相互兼容,组成了一个独立的应用体系,也可以称之为生态圈。

分布式 大数据 算法 storm hbase hdfs hadoop 程序员 日志 数据库 数据流 集群 数据挖掘 spark 培训

Ambari和ClouderaManager对比

  好程序员大数据培训分享之Ambari和ClouderaManager对比,1 、什么是CDH,Ambari?   Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。

大数据 hbase hdfs hadoop 程序员 Apache 集群 分布式计算 Ambari Hive 兼容性 培训 Mapreduce 大数据分析

奈学教育分享:Hadoop分布式系统HDFS工作原理

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。它能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

分布式 大数据 服务器 hdfs hadoop LOG 集群 分布式文件系统 分布式系统 存储 数据存储

数据中台的存储系统和计算平台枚举

采集&传输层 SqoopHadoop、关系型数据库之间传输数据的工具。传输时,会启动多个MR作业并发的传输数据 DataX阿里巴巴开源的数据同步工具,用来在各种异构数据源之间同步数据。

分布式 大数据 消息队列 hbase hdfs hadoop 日志 Apache 数据处理 数据库 数据仓库 spark solr 离线计算 存储

大数据分布式架构单点故障详解(Hdfs+Yarn+HBase+Spark+Storm)构建HA高可用架构

本文梳理了常见的hadoop生态圈中的组件:Hdfs+Yarn+HBase+Spark+Storm的单点故障问题,出现原因以及单点故障的原理和解决方案(构建HA(High Available)高可用架构)。阅读本文之前,最好了解清楚各组件的架构原理。

故障方案 分布式 大数据 架构 开发框架与中间件 分布式系统与计算 storm hbase hdfs hadoop 高可用 配置 spark 分布式架构 单点故障

Hadoop CDH版本安装和启动(CentOS7)

Hadoop CDH版本安装和启动(CentOS7) 1、创建hadoop组和用户,useradd hadoop  passwd hadoop  groupadd hadoops  usermod -G hadoops hadoop(将hadoop添加到hadoops组中)。

hdfs hadoop 配置 SSH

spark streaming 流式计算-----容错(hbase幂等性修改)

在做流式计算过程中,最复杂最难做的莫过于数据幂等性修改操作的设计。先解释一下概念【幂等性操作】,幂等性概念来源于数学专业表示对一个表达式做多次相同的操作,表达式不会改变。例如:逻辑回归中的Sigmod函数,n次求导之后依然坚挺。

hbase hdfs 线程 spark 流式计算 表达式

Hadoop 怎么了,大数据路在何方

近期 Hadoop 消息不断,众说纷纭。本文以 Hadoop 的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势。

分布式 大数据 Greenplum hdfs hadoop SQL 数据库 数据仓库 数据分析 对象存储 并行计算 分布式数据库 分布式存储 Mapreduce 存储

Hadoop社区比 Ozone 更重要的事情

本文回顾了最近几年Hadoop项目的发展,着重探讨个人对Ozone的看法和理解,不求正确,引玉而已,欢迎业内专家拍砖讨论。

大数据 hdfs hadoop 性能 公共云 高可用 spark 开源大数据 对象存储 存储

Hadoop社区比 Ozone 更重要的事情

坚持Hadoop作为大数据基础平台这一核心定位,同时积极拥抱云计算发展大势

大数据 hdfs hadoop 性能 公共云 高可用 spark 开源大数据 对象存储 存储

Alluxio深度学习实战-1:体验在HDFS上运行PyTorch框架

在HDFS上运行PyTorch程序本来需要用户修改PyTorch的适配器代码进行完成的工作,通过Alluxio,我们简化了适配工作,能够快速开展模型的开发和训练。而通过Kubernetes平台,这件事情变得非常简单,欢迎尝试。

深度学习 hdfs hadoop 镜像 Registry type

提前突击了这近200道大数据面试题,果然头条、京东都给了Offer

面试题包括Java、大数据开发、大数据运维、大数据分析、大数据架构等等 Q1:老师线上 6000+规模集群,抛开一些其它组件集群,仅讨论 HDFS 数据存储集群,保守理应也在有 3000 节点左右,想知道这些存储节点只是单集群NameNode 集群来维护吗?还是多集群独立维护的,如果是多集群存储...

大数据 java 监控 服务器 hdfs 配置 集群 脚本 面试题 磁盘 offer 大数据分析 大数据开发 大数据架构 大数据运维

AI 时代,还不了解大数据?

如果要问最近几年,IT行业哪个技术方向最火?一定属于ABC,即AI + Big Data + Cloud,也就是人工智能、大数据和云计算。

分布式 大数据 架构 hbase hdfs hadoop 数据库 数据仓库 Image 数据分析 google 存储 数据存储 流数据

全方位认识HBase:一个值得拥有的NoSQL数据库(一)

前言:说起HBase这门技术,在认知上对于稍微接触或使用过它的人来讲,可能只是百千数据库中一个很普通的库,大概就像我对Redis的认知一样:缓存嘛!可对于HBase,我确实是带着某些感情在的。今日突然萌生了一个生趣的想法,想抛开技术的视角,从情感的角度,像写小说一样,写写这位老朋友,这可能会有点滑稽吧,不过我觉得很放松。

NOSQL hbase hdfs hadoop Apache 数据库 google 分布式文件系统 分布式系统 Mapreduce 存储 数据存储 海量数据

在阿里云 E-MapReduce 上使用Data Science集群进行深度学习

Data Science 集群是阿里云 E-MapReduce 在 3.13.0 版本以后推出的专门用于机器学习,深度学习的新的机型。客户可以通过 Data Science 集群选用 GPU 或者 CPU 机型对数据进行训练,训练的数据可以存储在 HDFS 和 OSS 上,目前支持 TensorFlow 进行分布式训练,方便用户开发基于大数据存储,分布式调度的深度学习应用。

深度学习 分布式

Spark问答合集及解决方法

Spark问答合集及解决方法,转自阿里云开发者问答,大家有问题可以移步阿里云问答模块:https://developer.

大数据 hdfs 函数 Json 模块 集群 问答 控制台 spark aliyun DataFrame ask stream Hive source

趣头条基于 Flink+ClickHouse 构建实时数据分析平台

本文由趣头条数据平台负责人王金海分享,主要介绍趣头条 Flink-to-Hive 小时级场景和 Flink-to-ClickHouse 秒级场景。

大数据 hdfs 数据处理 配置 集群 数据分析 Hive 存储 流计算 flink 实时计算

五分钟学后端技术:一篇文章教你读懂大数据技术栈!

作者:网易云链接:https://www.zhihu.com/question/27696290/answer/381993207来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

分布式 大数据 java 监控 hdfs hadoop 线程 数据库 配置 集群 数据分析 supervisor Hive Mapreduce 存储

96
GO