1. 云栖社区>
  2. 全部标签>
  3. #hadoop#
hadoop

#hadoop#

已有18人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,Spark能够与Hadoop 很好地结合,Storm用于处理高速、大型数据流的分布式实时计算系用,为Hadoop添加可靠的实时数据处理能力。

分布式 storm hadoop 数据处理 数据流 数据仓库 系统环境 电商 Image 弹性伸缩 spark 对象存储 e-mapreduce EMR 大数据分析

7月2日 JindoFS 系列直播【Hadoop 小文件/冷文件分析】

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。

大数据 hdfs hadoop 性能 钉钉

从Hadoop到ClickHouse,现代BI系统有哪些问题?如何解决?

导读:一次机缘巧合,在研究BI产品技术选型的时候,我接触到了ClickHouse,瞬间就被其惊人的性能所折服。这款非Hadoop生态、简单、自成一体的技术组件引起了我极大的好奇。那么ClickHouse好在哪呢?本文带你做一个初步了解。

大数据 架构 hadoop 性能 数据库 互联网 数据仓库 测试 数据分析 spark 传统企业 海量数据

千亿级数据毫秒响应,为什么它最有机会干掉传统数据存储模式?

一款针对海量数据进行毫秒级在线即席查询分析的数据库决定了企业是否能以比竞争对手更低的成本、更快的速度解决问题,构建起核心竞争力。

大数据 架构 hadoop 性能 数据库 互联网 高并发 解决方案 存储 数据存储 海量数据

不通过 Spark 获取 Delta Lake Snapshot

Delta Lake 进行数据删除或更新操作时实际上只是对被删除数据文件做了一个 remove 标记,在进行 vacuum 前并不会进行物理删除,因此一些例如在 web 上获取元数据或进行部分数据展示的操作如果直接从表路径下获取 parquet 文件信息,读到的可能是历史已经被标记删除的数据。

hadoop Apache path spark 开源大数据 string static arraylist

官宣!ASF官方正式宣布Apache Hudi成为顶级项目

官宣!ASF官方正式宣布Apache Hudi成为顶级项目 马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF)、350多个开源项目和全职开发人员、管理人员和孵化器宣布:Apache Hudi正式成为Apache顶级项目(TLP)。

hadoop Apache 云存储 分布式文件系统 存储

好程序员大数据培训分享大数据两大核心技术

  好程序员大数据培训分享大数据两大核心技术,今天小编给大家先分享一下大数据的两大核心技术,知己知彼才能百战不殆,学习大数据技术也是一样的道理,要先有一个清晰的了解,才能确保自己全身心的投入学习。  Hadoop是什么?  Hadoop在2006年开始成为雅虎项目,随后晋升为顶级Apache开源项目。

编程语言 python 分布式 大数据 java hdfs hadoop 程序员 SQL Apache 集群 spark 培训 好程序员 大数据培训

好程序员大数据学习路线分享Hadoop机架感知

  好程序员大数据学习路线分享Hadoop机架感知,1.背景:Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。

大数据 java hdfs hadoop 程序员 Apache 配置 集群 Server 脚本 数据节点 好程序员 大数据培训

对象存储和新型分布式文件系统 - 填补Hadoop存储的空白

IT软硬件架构、企业部署已经发生了翻天覆地的变化,在这些新的变革下,HDFS露出了一定的颓势。但是云上对象存储是唯一的选择吗?面向on-premise,云环境以及混合云环境,在这新旧存储架构交替之际,数据存储会如何发展呢,如何填补Hadoop存储留下的空白?

大数据 架构 hdfs hadoop 公共云 开源大数据 对象存储 分布式文件系统 云架构 存储 数据存储 海量数据

HBase知识点集中总结

  好程序员大数据培训分享:HBase知识点集中总结,HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

大数据 监控 hbase hadoop 程序员 高可用 集群 google 分布式系统 分布式存储 file zookeeper Mapreduce 好程序员 大数据培训

CDH5 Hadoop如何支持读写OSS

CDH和CM(Cloudera Manager) CDH (Cloudera’s Distribution, including Apache Hadoop)是众多Hadoop发行版本中的一种,由Cloudera维护,目前有不少用户使用这个发行版本。

云栖社区 大数据

从ClickHouse的名字由来讲起

ClickHouse为什么叫ClickHouse ? 你知道它的名称来历吗?

大数据 hadoop 数据仓库 数据分析 OLAP ClickHouse

好程序员大数据培训分享Apache-Hadoop简介

  好程序员大数据培训分享Apache-Hadoop简介,一、Hadoop出现的原因:现在的我们,生活在数据大爆炸的年代。国际数据公司已经预测在2020年,全球的数据总量将达到44ZB,经过单位换算后,至少在440亿TB以上,也就是说,全球每人一块1TB的硬盘都存储不下。

分布式 大数据 hdfs hadoop 程序员 Apache 集群 排序 分布式文件系统 培训 Mapreduce 存储 数据存储

如何使用MaxCompute Spark读写阿里云Hbase

通过Spark on MaxCompute来访问阿里云的Hbase,需要设置网络安全组、Hbase的白名单和配置Spark的参数

hadoop VPC 配置 安全组 odps Image spark string MaxCompute

好程序员大数据培训分享之Hadoop的单节点集群设置(独立模式)

  好程序员大数据培训分享之Hadoop的单节点集群设置(独立模式),接下来,我们就来了解一下Hadoop集群的安装。而Hadoop的安装模式有以下三种,我们一一来了解一下: 单节点上的本地模式(独立模式) :Local(Standalone)Mode单节点的伪分布模式:Pseudo-Distributed Mode多节点的安全分布式集群模式:Fully-Distributed Cluster1 本地模式介绍1.1 特点: 运行在单台机器上,没有分布式思想,使用的是本地文件系统 1.2. 用途 用于对MapReduce程序的逻辑进行调试,确保程序的正确。

分布式 大数据 hadoop 程序员 path 配置 集群 正则表达式 脚本 培训 Mapreduce JDK 存储 input

好程序员大数据培训分享之Hadoop的生态系统

  好程序员大数据培训分享之Hadoop的生态系统,这次,我整理了一下hadoop的生态系统。hadoop生态系统,意思就是以hadoop为平台的各种应用框架,相互兼容,组成了一个独立的应用体系,也可以称之为生态圈。

分布式 大数据 算法 storm hbase hdfs hadoop 程序员 日志 数据库 数据流 集群 数据挖掘 spark 培训

Maxcompute Spark 访问 阿里云 Hbase

引子 本来这个东西是没啥好写的,但是在帮客户解决问题的时候,发现链路太长,不能怪客户弄不出来,记录一下 需求列表 MaxCompute Spark包 (写文章时刻为版本 0.32.1, 请自行更新,本文不是文档) Spark 配置 spark.

云栖社区 安全 hbase hadoop shell odps 测试 spark aliyun Access service github MaxCompute

一步即可!阿里云数据湖分析服务构建MySQL低成本分析方案

通过一键建湖能简单便捷的构建Mysql分析。它的特性是易用,分析能力强,成本极低,对源库影响很低。

mysql hadoop 性能 数据库 数据仓库 Image 同步 spark Hive presto DLA Mysql分析 建仓

OSS数据湖实践——EMR + Flink + OSS案例

构建基于OSS数据源的EMR大数据计算环境,使用Flink大数据计算引擎,实现简单的大数据分析案例。

OSS hadoop Apache 集群 云存储 spark scala API string EMR 大数据分析

291
GO