1. 云栖社区>
  2. 全部标签>
  3. #hadoop#
hadoop

#hadoop#

已有18人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Apache HBase常用命令

一.简述 Apache HBase是基于Apache Hadoop的面向列的NoSQL数据库,是Google的BigTable的开源实现。HBase是一个针对半结构化数据的开源的、多版本的、可伸缩的、高可靠的、高性能的、分布式的和面向列的动态模式数据库。

hbase hdfs hadoop Apache 分布式文件系统 数据结构 Mapreduce 存储 数据类型 常用命令 Aapache

好程序员大数据学习路线分享分布式文件系统HDFS

好程序员大数据学习路线分享分布式文件系统HDFS,设计目标: 1、存储量大 2、自动快速检测应对硬件错误 3、流式访问数据 4、移动计算比移动数据本身更划算 5、简单一致性模型 6、异构平台可移植 特点 优点: 高可靠性:Hadoop按位存储和处理数据的能力强高扩展性:hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中高效性:hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快高容错性:hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

大数据 hdfs hadoop 程序员 path 镜像 集群 string 数据节点 分布式文件系统 存储

Flink在大规模状态数据集下的checkpoint调优

5万人关注的大数据成神之路,不来了解一下吗?5万人关注的大数据成神之路,真的不来了解一下吗?5万人关注的大数据成神之路,确定真的不来了解一下吗? 欢迎您关注《大数据成神之路》 今天接到一个同学的反馈问题,大概是: Flink程序运行一段时间就会报这个错误,定位好多天都没有定位到。

大数据 java hdfs hadoop Apache runtime Server 存储 flink

重学计算机组成原理(六)- 函数调用怎么突然Stack Overflow了!

用Google搜异常信息,肯定都访问过Stack Overflow网站 全球最大的程序员问答网站,名字来自于一个常见的报错,就是栈溢出(stack overflow) 从函数调用开始,在计算机指令层面函数间的相互调用是怎么实现的,以及什么情况下会发生栈溢出 1 栈的意义 先看一个简单的C程序 function.

云栖社区 hadoop 函数 PTR ADD

菜鸟的Hadoop快速入门

一、相关概念 1、大数据 大数据是一门概念,也是一门技术,是以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。 大数据包括了以Hadoop和Spark为代表的基础大数据框架,还包括实时数据处理,离线数据处理,数据分析,数据挖掘和用机器算法进行预测分析等技术。

大数据 服务器 hdfs hadoop 高可用 配置 集群 分布式计算 磁盘 Mapreduce 存储

从零开始实现一个IDL+RPC框架

一、RPC是什么 在很久之前的单机时代,一台电脑中跑着多个进程,进程之间没有交流各干各的,就这样过了很多年。突然有一天有了新需求,A进程需要实现一个画图的功能,恰好邻居B进程已经有了这个功能,偷懒的程序员C想出了一个办法:A进程调B进程的画图功能。

RPC 大数据 hadoop 函数 Server mqtt service 数据类型 数组

招联金融研发总监姜良雷做客选型宝 亲身讲述大数据平台选型历程

写在前面 招联金融的研发总监姜良雷, 这位被称为大数据领域“老司机”的姜总,从1997年开始便在招商银行从事数据相关的工作;过去20年,亲历了招行历代数据库的建设与开发。2014年,参与了招联金融 (招行与联通的合资公司)的筹建,主导了招联大数据平台的选型和实施的全过程。

大数据 架构 hadoop 性能 高可用 互联网 测试 数据分析 IT选型 选型

教程:Data Lake Analytics + OSS数据文件格式处理大全

0. 前言 Data Lake Analytics是Serverless化的云上交互式查询分析服务。用户可以使用标准的SQL语句,对存储在OSS、TableStore上的数据无需移动,直接进行查询分析。

数据存储与数据库 大数据 分布式系统与计算 OSS hadoop SQL Json Apache 正则表达式 string Hive Create 存储 数据湖 DataLake

AnalyticDB for PostgreSQL 实时数据仓库上手指南

AnalyticDB for PostgreSQL 提供企业级数据仓库云服务,基于开源Greenplum构建,采用MPP架构,支持1000+节点PB级数据的实时分析。

PostgreSQL Greenplum mysql hadoop etl 同步 OLAP MPP 分析型数据库 EMR MaxCompute AnalyticDB HybridDB 企业数仓

Giraph源码分析(六)——Edge 分析

1.在Vertex类中,顶点的存储方式采用邻接表形式。每个顶点有 VertexId、VertexValue、OutgoingEdges和Halt,boolean型的halt变量用于记录顶点的状态,false时表示active,true表示inactive状态。

大数据 hadoop Apache 源码 存储

《云计算架构技术与实践》读书笔记(三):容器开源软件和大数据开源软件

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/a724888/article/details/75384628 这位大侠,这是我的公众号:程序员江湖。

大数据 架构 hadoop 性能 配置 集群 容器 数据挖掘 spark Server 应用管理 数据中心

基于大数据的中文舆情分析

本文出自我的公众号:程序员江湖。 满满干货,关注就送。 基于大数据的中文舆情分析 助力企业洞察商机 社交媒体发展日益瞩目,在这个社会化媒体时代,用户成为企业最好的品牌推广大使。

大数据 架构 hadoop 数据库 存储 舆情分析 文本分析

Hadoop生态系统

Hadoop生态系统 首先我们先了解一下Hadoop的起源。然后介绍一些关于Hadoop生态系统中的具体工具的使用方法。

分布式 hbase hdfs hadoop 数据库 数据仓库 集群 数据挖掘 分布式计算 google 分布式文件系统 Hive 离线分析 zookeeper Mapreduce

基于Docker快速搭建多节点Hadoop集群

基于Docker快速搭建多节点Hadoop集群 【编者的话】Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。

docker hadoop ubuntu 配置 镜像 集群 容器 测试 脚本 index

Hadoop生态基础学习总结

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/a724888/article/details/80956973 这位大侠,这是我的公众号:程序员江湖。

分布式 storm hbase hdfs hadoop 高可用 集群 spark supervisor zookeeper Mapreduce 存储

后端技术杂谈2:搜索引擎工作原理

写在前面 Max Grigorev最近写了一篇文章,题目是《What every software engineer should know about search》,这篇文章里指出了现在一些软件工程师的问题,他们认为开发一个搜索引擎功能就是搭建一个ElasticSearch集群,而没有深究背后的技术,以及技术发展趋势。

hadoop 模块 solr 搜索引擎 索引 google lucene

搞懂分布式技术25:初探大数据计算框架与平台

1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。

分布式 大数据 storm hadoop Apache 数据处理 数据库 reduce 排序 spark 分布式计算 Hive Mapreduce 流计算

281
GO