1. 云栖社区>
  2. 全部标签>
  3. #Hive#
Hive

#Hive#

已有2人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

一次有趣的Elasticsearch+矩阵变换聚合实践

Elasticsearch 聚合功能非常丰富,性能也相当不错,特别适合实时聚合分析场景,但在二次聚合上也有明显短板。本项目是一个基于日期维度做预处理的技术方案,以下是结合 Elasticsearch 优缺点扬长避短的一次尝试性实战,非常有意思,希望可以带来一些参考,同时欢迎各种讨论。

大数据 Image 索引 Elasticsearch Hive 存储

好程序员大数据培训分享Hive的静态分区与动态分区

  好程序员大数据培训分享Hive的静态分区与动态分区:分区是hive存放数据的一种方式。将列值作为目录来存放数据,就是一个分区。这样查询时使用分区列进行过滤,只需根据列值直接扫描对应目录下的数据,不扫描其他不关心的分区,快速定位,提高查询效率。

大数据 程序员 BY Hive 分区表 Create 培训 好程序员 大数据培训 大数据教程

一步即可!阿里云数据湖分析服务构建MySQL低成本分析方案

通过一键建湖能简单便捷的构建Mysql分析。它的特性是易用,分析能力强,成本极低,对源库影响很低。

mysql hadoop 性能 数据库 数据仓库 Image 同步 spark Hive presto DLA Mysql分析 建仓

Flink 1.10 SQL、HiveCatalog 与事件时间整合示例

Flink 1.10 与 1.9 相比又是个创新版本,在我们感兴趣的很多方面都有改进,特别是 Flink SQL。本文用根据埋点日志计算 PV、UV 的简单示例来体验 Flink 1.10 的两个重要新特性.

大数据 函数 SQL Apache 数据处理 scala string Hive schema 流计算 flink 实时计算

OSS 数据湖实践 —— 使用EMR JindoFs Cache提升性能

通过使用JindoFs 的Cache功能,加速作业计算,减小OSS带宽需求,优化作业架构。

OSS 性能 配置 集群 Cache 数据分析 aliyun e-mapreduce EMR Hive

OSS数据湖实践——EMR + Hive + OSS案例

构建基于OSS数据源的EMR大数据计算环境,使用Hive分析工具,实现简单的大数据分析案例。

架构 OSS js 数据仓库 集群 BY e-mapreduce string EMR Hive Group csv

hive常见自定义函数

  hive常见自定义函数先来讲一下hive自定义函数1.1 为什么需要自定义函数hive的内置函数满足不了所有的业务需求。hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。

服务器 hadoop 函数 Apache 配置 ADD string Hive class UDF Create arraylist

hive存储过程

  hive存储过程,1、hive存储过程简介1.x版本的hive中没有提供类似存储过程的功能,使用Hive做数据开发时候,一般是将一段一段的HQL语句封装在Shell或者其他脚本中,然后以命令行的方式调用,完成一个业务或者一张报表的统计分析。

hadoop SQL 配置 测试 解决方案 脚本 Hive Create 存储过程 Mapreduce

Ambari和ClouderaManager对比

  好程序员大数据培训分享之Ambari和ClouderaManager对比,1 、什么是CDH,Ambari?   Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。

大数据 hbase hdfs hadoop 程序员 Apache 集群 分布式计算 Ambari Hive 兼容性 培训 Mapreduce 大数据分析

大数据采集和抽取怎么做?这篇文章终于说明白了!

数据是数据中台\数据平台核心中的核心,因此数据汇聚必然是数据中台/平台的入口,本文详细讲述采集模块的方方面面、采集框架的使用选型以及企业真实落地

大数据 消息队列 mysql hbase 日志 数据库 工单 同步 Hive 数据同步 编程 数据采集 alibaba 存储 github

SparkSQL与Hive metastore Parquet转换

Spark SQL为了更好的性能,在读写Hive metastore parquet格式的表时,会默认使用自己的Parquet SerDe,而不是采用Hive的SerDe进行序列化和反序列化

java hadoop SQL Apache spark scala 开源大数据 Hive schema 数据类型

Flink 与 Hive 的磨合期

在上篇文章中,笔者使用的 CDH 版本为 5.16.2,其中 Hive 版本为 1.1.0(CDH 5.x 系列 Hive 版本都不高于 1.1.0,是不是不可理解),Flink 源代码本身对 Hive 1.1.0 版本兼容性不好,存在不少问题。

大数据 SQL Apache 数据处理 数据库 配置 spark string Hive type 存储 流计算 flink 实时计算

物化视图在 SparkSQL 中的实践

物化视图作为一种预计算的优化方式,广泛应用于传统数据库中,如Oracle,MSSQL Server等。随着大数据技术的普及,各类数仓及查询引擎在业务中扮演着越来越重要的数据分析角色,而物化视图作为数据查询的加速器,将极大增强用户在数据分析工作中的使用体验。

大数据 spark Hive 存储 kylin

Flink 作为现代数据仓库的统一引擎:Hive 集成生产就绪!

如果你对以上问题深有同感,那说明这篇文章很适合你。我们来看看如何真正解决这个问题。接下来我将带各位了解下 Flink 与 Hive 生产级别的整合工作。

大数据 函数 数据处理 基础设施 数据仓库 数据分析 Hive 分区表 数据类型 数据存储 流计算 数据管理 flink 实时计算

18个PPT,29个提问解答,都在这儿啦!

为期一天半的 Flink Forward 中文精华版在北京、上海、杭州三地进行联动直播,吸引了全球近 20000 人次开发者在线观看。除优质内容外,Flink Forward 精华版还首次开创问题征集,在线观看直播的同学可及时对嘉宾分享提出疑问并邀请讲师在线解答。

算法 性能 Apache 数据处理 Hive 流计算 flink 实时计算

Delta Lake Presto Integration & Manifests 机制

Delta 0.5 已于上周发布,增加了不少新特性,这篇文章主要讲解其 Presto Integration 和 Manifests 机制。

大数据 java hadoop Apache path spark 开源大数据 string Hive 分区表 schema facebook

SparkSQL DatasourceV2 之 Multiple Catalog

SparkSQL DatasourceV2作为Spark2.3引入的特性,在Spark 3.0 preview(2019/12/23)版本中又有了新的改进以更好的支持各类数据源。本文将从catalog角度,介绍新的数据源如何和Spark DatasourceV2进行集成。

SQL Image spark 解决方案 开源大数据 string Hive

Flink 的经典场景和业务故事有哪些?看看他们就知道了

在大数据的日常场景中,从数据生产者,到数据收集、数据处理、数据应用(BI+AI),整个大数据 + AI 全栈的每个环节,Flink 均可应用于其中。作为新一代开源大数据计算引擎,Flink 不仅满足了工业界对实时性的需求,还能够打通端到端的数据价值挖掘全链路。

分布式 大数据 Apache 数据处理 高可用 钉钉 google Hive 流计算 工作流 flink 实时计算

65
GO