1. 云栖社区>
  2. 全部标签>
  3. #Hive#
Hive

#Hive#

已有2人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

基于 Flink + Hive 构建流批一体准实时数仓

想要搭建流式链路就必须得抛弃现有的 Hive 数仓吗?并不是,借助 Flink 可以实现已有的 Hive 离线数仓准实时化。本文整理自 Apache Flink Committer、阿里巴巴技术专家李劲松的分享,文章将分析当前离线数仓实时化的难点,详解 Flink 如何解决 Hive 流批一体准实时数仓的难题,实现更高效、合理的资源配置。

架构 Hive 分区表 存储

Flink SQL 1.11 新功能与最佳实践

旨在帮助用户快速了解新版本 Table & SQL 在 Connectivity 和 Simplicity 等方面的优化及实际开发使用的最佳实践。

架构 SQL 数据库 Hive Create 流计算

Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略

本文先通过源码简单过一下分区提交机制的两个要素——即触发(trigger)和策略(policy)的实现,然后用合并小文件的实例说一下自定义分区提交策略的方法。

hadoop SQL Apache path string Hive class schema list arraylist

BIGO 实时计算平台建设实践

从业界来看,实时化的趋势正在加速,本文将介绍 BIGO 基于 Flink 的实时计算平台的建设经验和成果。

大数据 监控 etl 高可用 配置 集群 Hive

Flink x Zeppelin ,Hive Streaming 实战解析

Flink 1.11 正式发布已经三周了,其中最吸引我的特性就是 Hive Streaming。正巧 Zeppelin-0.9-preview2 也在前不久发布了,所以就写了一篇 Zeppelin 上的 Flink Hive Streaming 的实战解析。

架构 Apache 配置 string Hive source

Flink 1.11 SQL 使用攻略

SQL 作为 Flink 中公认的核心模块之一,对推动 Flink 流批一体功能的完善至关重要。在 1.11 中,Flink SQL 也进行了大量的增强与完善,开发大功能 10 余项,不仅扩大了应用场景,还简化了流程,上手操作更简单。

SQL 模块 Hive source 数据结构 流计算

Flink 1.11 新特性之 SQL Hive Streaming 简单示例

Flink 1.11 的 Hive Streaming 功能大大提高了 Hive 数仓的实时性,对 ETL 作业非常有利,同时还能够满足流式持续查询的需求,具有一定的灵活性。

SQL Json Apache scala string Hive schema

解决问题 1474 个,Flink 1.11 究竟有哪些易用性上的改善?

7月7日,Flink 1.11.0 正式发布了,作为这个版本的 release manager 之一,我想跟大家分享一下其中的经历感受以及一些代表性 feature 的解读。在进入深度解读前,我们先简单了解下社区发布的一般流程,帮助大家更好的理解和参与 Flink 社区的工作。

python 性能 集群 Hive source

字节跳动基于 Flink 的 MQ-Hive 实时数据集成

在数据中台建设过程中,一个典型的数据集成场景是将 MQ (Message Queue,例如 Kafka、RocketMQ 等)的数据导入到 Hive 中,以供下游数仓建设以及指标统计。由于 MQ-Hive 是数仓建设第一层,因此对数据的准确性以及实时性要求比较高。

架构 hdfs 解决方案 Hive 容灾 source 存储

Flink 1.11:更好用的流批一体 SQL 引擎

在保证优秀性能的同时,易用性是 1.11 版本 Flink SQL 的重头戏。易用性的提升主要体现在以下几个方面:更方便的追加或修改表定义、灵活的声明动态的查询参数、加强和统一了原有 TableEnv 上的 SQL 接口、简化了 connector 的属性定义、对 Hive 的 DDL 做了原生支持、加强了对 python UDF 的支持。

python SQL Apache API string Hive UDF Create timestamp

有哪些大数据处理工具?

本文分享作者在大数据系统实践过程中接触过的一些工具及使用感受,抛砖引玉,和同学们一起构建一个分布式产品的全景图。

分布式 大数据 hbase hdfs hadoop Apache Image spark Hive Mapreduce 存储

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

本文介绍都有哪些情况会产生笛卡尔积,以及如何事前"预测"写的SQL会产生笛卡尔积从而避免

hadoop SQL Apache spark 开源大数据 string Hive

Flink 1.11.0 发布,有哪些值得关注的新特性?

阿里高级技术专家王治江将深度剖析 Flink 1.11.0 带来了哪些让大家期待已久的特性,对一些有代表性的 feature 从不同维度解读。

python 性能 集群 Hive source

重磅:阿里云 JindoFS SDK 全面开放使用,OSS 文件各项操作性能得到大幅提升

本文主要介绍如何使用JindoFS SDK来访问OSS对象存储,以及使用它来提升我们操作OSS文件的性能。值得一提的是,此前JindoFS SDK 仅限于E-MapReduce产品内部使用,此次全方位面向整个阿里云OSS用户放开,并提供官方维护和支持技术,欢迎广大用户集成和使用。

大数据 性能优化 OSS hadoop 性能 sdk 配置 code 测试 钉钉 aliyun 对象存储 Hive h2 存储

官方剧透:1.11 发版前我们偷看了 Flink 中文社区发起人的聊天记录

自 2014 年正式开源, Flink 发展非常迅速,在 GitHub 上其访问量在 Apache 项目中位居前三。去年年底 Flink Forward Asia 2019 大会公布,仅仅 2019 年一年的时间,Flink 在 GitHub 上的 star 数量就翻了一倍,Contributor 数量也呈现出持续增长的态势。

python 大数据 架构 算法 SQL Apache 数据处理 Hive 存储 流计算

一次有趣的Elasticsearch+矩阵变换聚合实践

Elasticsearch 聚合功能非常丰富,性能也相当不错,特别适合实时聚合分析场景,但在二次聚合上也有明显短板。本项目是一个基于日期维度做预处理的技术方案,以下是结合 Elasticsearch 优缺点扬长避短的一次尝试性实战,非常有意思,希望可以带来一些参考,同时欢迎各种讨论。

大数据 Image 索引 Elasticsearch Hive 存储

好程序员大数据培训分享Hive的静态分区与动态分区

  好程序员大数据培训分享Hive的静态分区与动态分区:分区是hive存放数据的一种方式。将列值作为目录来存放数据,就是一个分区。这样查询时使用分区列进行过滤,只需根据列值直接扫描对应目录下的数据,不扫描其他不关心的分区,快速定位,提高查询效率。

大数据 程序员 BY Hive 分区表 Create 培训 好程序员 大数据培训 大数据教程

66
GO