1. 云栖社区>
  2. 全部标签>
  3. #存储#
存储

#存储#

已有9人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

基于 Flink + Hive 构建流批一体准实时数仓

想要搭建流式链路就必须得抛弃现有的 Hive 数仓吗?并不是,借助 Flink 可以实现已有的 Hive 离线数仓准实时化。本文整理自 Apache Flink Committer、阿里巴巴技术专家李劲松的分享,文章将分析当前离线数仓实时化的难点,详解 Flink 如何解决 Hive 流批一体准实时数仓的难题,实现更高效、合理的资源配置。

架构 Hive 分区表 存储

【数据湖开发治理篇】——数据湖开发治理平台DataWorks

数据湖的定义: wikipedia中对于数据湖的定义是:“A data lake is a system or repository of data stored in its natural/raw format, usually object blobs or files.

大数据 PostgreSQL Image 数据迁移 存储 数据管理 MaxCompute AnalyticDB

Serverless Spark的弹性利器 - EMR Shuffle Service

###背景与动机 ####计算存储分离下的刚需 计算存储分离是云原生的重要特征。通常来讲,计算是CPU密集型,存储是IO密集型,他们对于硬件配置的需求是不同的。在传统计算存储混合的架构中,为了兼顾计算和存储,CPU和存储设备都不能太差,因此牺牲了灵活性,提高了成本。

架构 性能 配置 reduce Image spark EMR ESS 磁盘 service 存储

云原生计算引擎挑战与解决方案

云原生背景介绍与思考 图一是基于ECS底座的EMR架构,这是一套非常完整的开源大数据生态,也是近10年来每个数字化企业必不可少的开源大数据解决方案。主要分为以下几层: ECS物理资源层,也就是Iaas层 数据接入层,例如实时的Kafka,离线的Sqoop 存储层,包括HDFS和OSS,以及EMR自研的缓存加速JindoFS 计算引擎层,包括熟知的Spark,Presto、Flink等这些计算引擎 数据应用层,如阿里自研的Dataworks、PAI以及开源的Zeppelin,Jupyter 每一层都有比较多的开源组件与之对应,这些层级组成了最经典的大数据解决方案,也就是EMR的架构。

大数据 架构 性能 集群 容器 云盘 spark 解决方案 开源大数据 EMR service 存储

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

什么是CDC Change Data Capture(CDC)用来跟踪捕获数据源的数据变化,并将这些变化同步到目标存储(如数据湖或数据仓库),用于数据备份或后续分析,同步过程可以是分钟/小时/天等粒度,也可以是实时同步。

性能 SQL Image 同步 spark 解决方案 e-mapreduce 数据同步 test binlog 存储

多数据源一站式入湖

背景 数据湖作为一个集中化的数据存储仓库,支持的数据类型具有多样性,包括结构化、半结构化以及非结构化的数据,数据来源上包含数据库数据、binglog增量数据、日志数据以及已有数仓上的存量数据等.数据湖能够将这些不同来源、不同格式的数据集中存储管理在高性价比的存储如OSS等对象存储中,并对外提供统一的数据分析方式,有效解决了企业中面临的数据孤岛问题,同时大大降低了企业存储和使用数据的成本.

SQL 日志 数据库 Image spark 对象存储 异构数据 update 存储 数据存储

阿里巴巴电商搜索推荐实时数仓演进之路

1. 业务背景 阿里巴巴电商搜索推荐实时数据仓库承载了阿里巴巴集团淘宝、淘宝特价版、饿了么等多个电商业务的实时数仓场景,提供了包括实时大屏、实时报表、实时算法训练、实时A/B实验看板等多种数据应用支持。

架构 算法 日志 数据处理 高并发 电商 运营 OLAP 存储

同地域跨可用区容灾

阿里云最佳实践频道:【点击查看更多上云最佳实践】这里有丰富的企业上云最佳实践,从典型场景入门,提供一系列项目实践方案,降低企业上云门槛的同时满足您的需求! 场景描述 阿里云公共云客户,业务在同一个地域(Region):1、目前客户应用已经无状态。

架构 消息队列 云服务器 高可用 数据库 负载均衡 aliyun 容灾 存储

多引擎集成挖掘湖上数据价值

数据湖已经逐步走到了精细化的管理,这意味着原始的计算引擎直接读写存储的方式应当逐步演变为使用标准方式读写数据湖存储。然而“标准方式”实际上并无业界标准,与具体的计算引擎深度绑定,因此,支持计算引擎的丰富程度也就成了衡量数据湖的一个准则。

OSS 性能 集群 Image spark EMR 存储 数据存储 MaxCompute

1732
GO