1. 云栖社区>
  2. 全部标签>
  3. #Hive#
Hive

#Hive#

已有2人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

大数据采集和抽取怎么做?这篇文章终于说明白了!

数据是数据中台\数据平台核心中的核心,因此数据汇聚必然是数据中台/平台的入口,本文详细讲述采集模块的方方面面、采集框架的使用选型以及企业真实落地

大数据 消息队列 mysql hbase 日志 数据库 工单 同步 Hive 数据同步 编程 数据采集 alibaba 存储 github

SparkSQL与Hive metastore Parquet转换

Spark SQL为了更好的性能,在读写Hive metastore parquet格式的表时,会默认使用自己的Parquet SerDe,而不是采用Hive的SerDe进行序列化和反序列化

java hadoop SQL Apache spark scala 开源大数据 Hive schema 数据类型

Flink 与 Hive 的磨合期

在上篇文章中,笔者使用的 CDH 版本为 5.16.2,其中 Hive 版本为 1.1.0(CDH 5.x 系列 Hive 版本都不高于 1.1.0,是不是不可理解),Flink 源代码本身对 Hive 1.1.0 版本兼容性不好,存在不少问题。

大数据 SQL Apache 数据处理 数据库 配置 spark string Hive type 存储 流计算 flink 实时计算

物化视图在 SparkSQL 中的实践

物化视图作为一种预计算的优化方式,广泛应用于传统数据库中,如Oracle,MSSQL Server等。随着大数据技术的普及,各类数仓及查询引擎在业务中扮演着越来越重要的数据分析角色,而物化视图作为数据查询的加速器,将极大增强用户在数据分析工作中的使用体验。

大数据 spark Hive 存储 kylin

Flink 作为现代数据仓库的统一引擎:Hive 集成生产就绪!

如果你对以上问题深有同感,那说明这篇文章很适合你。我们来看看如何真正解决这个问题。接下来我将带各位了解下 Flink 与 Hive 生产级别的整合工作。

大数据 函数 数据处理 基础设施 数据仓库 数据分析 Hive 分区表 数据类型 数据存储 流计算 数据管理 flink 实时计算

18个PPT,29个提问解答,都在这儿啦!

为期一天半的 Flink Forward 中文精华版在北京、上海、杭州三地进行联动直播,吸引了全球近 20000 人次开发者在线观看。除优质内容外,Flink Forward 精华版还首次开创问题征集,在线观看直播的同学可及时对嘉宾分享提出疑问并邀请讲师在线解答。

算法 性能 Apache 数据处理 Hive 流计算 flink 实时计算

Delta Lake Presto Integration & Manifests 机制

Delta 0.5 已于上周发布,增加了不少新特性,这篇文章主要讲解其 Presto Integration 和 Manifests 机制。

大数据 java hadoop Apache path spark 开源大数据 string Hive 分区表 schema facebook

SparkSQL DatasourceV2 之 Multiple Catalog

SparkSQL DatasourceV2作为Spark2.3引入的特性,在Spark 3.0 preview(2019/12/23)版本中又有了新的改进以更好的支持各类数据源。本文将从catalog角度,介绍新的数据源如何和Spark DatasourceV2进行集成。

SQL Image spark 解决方案 开源大数据 string Hive

Flink 的经典场景和业务故事有哪些?看看他们就知道了

在大数据的日常场景中,从数据生产者,到数据收集、数据处理、数据应用(BI+AI),整个大数据 + AI 全栈的每个环节,Flink 均可应用于其中。作为新一代开源大数据计算引擎,Flink 不仅满足了工业界对实时性的需求,还能够打通端到端的数据价值挖掘全链路。

分布式 大数据 Apache 数据处理 高可用 钉钉 google Hive 流计算 工作流 flink 实时计算

hive中将单行拆分成多行总结

hive 中实现拆分字段到多行

函数 string Hive Mobile view explode

Spark问答合集及解决方法

Spark问答合集及解决方法,转自阿里云开发者问答,大家有问题可以移步阿里云问答模块:https://developer.

大数据 hdfs 函数 Json 模块 集群 问答 控制台 spark aliyun DataFrame ask stream Hive source

趣头条基于 Flink+ClickHouse 构建实时数据分析平台

本文由趣头条数据平台负责人王金海分享,主要介绍趣头条 Flink-to-Hive 小时级场景和 Flink-to-ClickHouse 秒级场景。

大数据 hdfs 数据处理 配置 集群 数据分析 Hive 存储 流计算 flink 实时计算

五分钟学后端技术:一篇文章教你读懂大数据技术栈!

作者:网易云链接:https://www.zhihu.com/question/27696290/answer/381993207来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

分布式 大数据 java 监控 hdfs hadoop 线程 数据库 配置 集群 数据分析 supervisor Hive Mapreduce 存储

阿里云智能事业群 EMR团队招人啦!

加入我们,成为分布式存储,计算和调度等领域的专家,与众多业界和社区技术专家一起工作,加速大数据上云,投身数字时代新基建。

大数据 飞天 hadoop Apache 弹性计算 spark 开源大数据 对象存储 e-mapreduce 云服务 EMR Hive 专有云 分布式存储 大数据分析

2020计算平台事业部校招开始啦!

前端/后端/应届生/社畜通通需要

编程语言 大数据 算法 监控 hbase hadoop 用户体验 spark 开源大数据 Hive 专有云 数据结构 海量数据

Hive 终于等来了 Flink

Flink 社区在集成 Hive 功能方面付出很多,目前进展也比较顺利,最近 Flink 1.10.0 RC1 版本已经发布,感兴趣的读者可以进行调研和验证功能。

大数据 hadoop SQL Apache 数据处理 配置 Hive Registry type 流计算 实时计算

一套 SQL 搞定数据仓库?Flink有了新尝试

数据仓库是公司数据发展到一定规模后必然需要提供的一种基础服务,也是“数据智能”建设的基础环节。

架构 SQL 数据库 数据仓库 离线计算 Hive schema Create 存储 流计算

一套 SQL 搞定数据仓库?Flink有了新尝试

目前企业的数仓建设大多是离线一套,实时一套。业务要求低延时的使用实时数仓;业务复杂的使用离线数仓。架构十分复杂,需要使用很多系统和计算框架,这就要求企业储备多方面的人才,导致人才成本较高,且出了问题难以排查,终端用户也需要熟悉多种语法。

大数据 架构 SQL 数据处理 数据库 数据仓库 离线计算 Hive 存储 流计算 flink 实时计算

66
GO