1. 云栖社区>
  2. 全部标签>
  3. #hadoop#
hadoop

#hadoop#

已有18人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充?本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数据中台领域建设,将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析,来阐述两者融合演进的新方向——湖仓一体,并就基于阿里云MaxCompute/EMR DataLake的湖仓一体方案做一介绍。

大数据 架构 hadoop 性能 数据库 数据仓库 集群 Image 存储 数据管理 MaxCompute

数据湖架构,为什么需要“湖加速”?

在开源大数据领域,存储/计算分离已经成为共识和标准做法,数据湖架构成为大数据平台的首要选择。基于这一范式,大数据架构师需要考虑三件事情: 第一,选择什么样的存储系统做数据湖(湖存储)? 第二,计算和存储分离后,出现了性能瓶颈,计算如何加速和优化(湖加速)? 第三,针对需要的计算场景,选择什么样的计算引擎(湖计算)? 湖存储可以基于我们熟悉的HDFS,在公共云上也可以选择对象存储,例如阿里云OSS。

大数据 架构 OSS hdfs hadoop 性能 集群 对象存储 带宽 存储

Spark On MaxCompute访问Phonix

如何使用Spark On MaxCompute连接Phonix,将Hbase的数据写入到MaxCompute的对应表中,这个目前没有对应的案例,为了满足用户的需求。本文通过使用Spark连接Phonix访问Hbase的数据写入MaxCompute该方案实践得出该方案的可行。

hbase hadoop Apache 配置 odps 测试 Maven spark scala aliyun scope MaxCompute

基于JindoFS+OSS构建高效数据湖

为什么要构建数据湖 大数据时代早期,Apache HDFS 是构建具有海量存储能力数据仓库的首选方案。随着云计算、大数据、AI 等技术的发展,所有云厂商都在不断完善自家的对象存储,来更好地适配 Apache Hadoop/Spark 大数据以及各种 AI 生态。

大数据 OSS hdfs hadoop 性能 c++ 高可用 集群 spark 对象存储 高性能 磁盘 存储

阿里云云原生数据湖分析DLA Serverless Spark重磅发布,助力企业低成本挖掘OSS数据价值

由于解决了用户当前遇到的数据分散、复杂、难管理的问题,数据湖方案越来越深入人心,阿里云DLA产品提供了一体化解决方案,从数据湖管理到数据湖分析和计算。相对于在线引擎,Spark更适合弹性计算架构,可以跟云原生的弹性能力深度整合起来。

大数据 架构 OSS hadoop 性能 配置 集群 Image 云盘 spark 存储 在线分析

Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略

本文先通过源码简单过一下分区提交机制的两个要素——即触发(trigger)和策略(policy)的实现,然后用合并小文件的实例说一下自定义分区提交策略的方法。

hadoop SQL Apache path string Hive class schema list arraylist

一文告诉你什么是E-MapReduce

阿里云E-MapReduce(Elastic MapReduce),是运行在阿里云平台上的一种大数据处理的系统解决方案。

大数据 hadoop 云服务器 Apache 性能监控 配置 集群 spark 流式计算 aliyun 解决方案 e-mapreduce 数据存储

从 Hadoop 到云原生(1):Kylin 在云原生巨浪中的思考

基于云平台的数据仓库技术正在逐渐让所有人相信拥抱云原生才是数据仓库技术以及相关数据分析技术未来,云原生的巨浪正在席卷全球的软件产业,包括开源软件和商业软件。

大数据 架构 hadoop 公共云 数据仓库 集群 可扩展性 对象存储 Redshift 专有云 云平台 存储 kylin

有哪些大数据处理工具?

本文分享作者在大数据系统实践过程中接触过的一些工具及使用感受,抛砖引玉,和同学们一起构建一个分布式产品的全景图。

分布式 大数据 hbase hdfs hadoop Apache Image spark Hive Mapreduce 存储

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

本文介绍都有哪些情况会产生笛卡尔积,以及如何事前"预测"写的SQL会产生笛卡尔积从而避免

hadoop SQL Apache spark 开源大数据 string Hive

291
GO