1. 云栖社区>
  2. 全部标签>
  3. #Hive#
Hive

#Hive#

已有2人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

自建Hive数据仓库迁移到阿里云EMR

客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云EMR集群之后,涉及到将数据仓库和Hive元数据的数据库迁移上云。

数据库 数据仓库 集群 Image 数据迁移 弹性计算 对象存储 数据库迁移 EMR Hive Mapreduce 公共云

Atlas(元数据管理)从扫盲到和Hive、HBase、Kafka、Flink等集成开发

先对数据分个类 企业数据管理的内容及范畴通常包括交易数据、主数据以及元数据。(1)交易数据:用于纪录业务事件,如客户的订单,投诉记录,客服申请等,它往往用于描述在某一个时间点上业务系统发生的行为。(2)主数据:主数据则定义企业核心业务对象,如客户、产品、地址等,与交易流水信息不同,主数据一旦被记录到数据库中,需要经常对其进行维护,从而确保其时效性和准确性;主数据还包括关系数据,用以描述主数据之间的关系,如客户与产品的关系、产品与地域的关系、客户与客户的关系、产品与产品的关系等。

大数据 hbase hadoop Apache 数据库 脚本 Hive 存储 数据管理 客服 Atlas

【含视频+文字版】《从开源到云原生,你不得不知的大数据实战》| 2020 大数据技术公开课第一季

亲爱的大数据开发者们,新年好!在过去的2019年中,MaxCompute开发者社区共举办了六季大数据技术公开课,也受到广大开发者们的认可和鼓励。2月份我们已经紧锣密鼓的筹备了新年的第一季大数据技术公开课—《从开源到云原生,你不得不知的大数据实战》,欢迎各位开发者们一起参加。

大数据 架构 SQL 钉钉 spark Hive 兼容性 sqoop MaxCompute

性能提升约 7 倍!Apache Flink 与 Apache Hive 的集成

随着 Flink 在流式计算的应用场景逐渐成熟和流行,如果 Flink 能同时把批量计算的应用场景处理好,就能减少用户在使用 Flink 时开发和维护的成本,并且能够丰富 Flink 的生态。SQL 是批计算中比较常用的工具,所以 Flink 针对于批计算也以 SQL 为主要接口。

大数据 架构 函数 性能 SQL Apache 数据处理 配置 测试 Hive 性能测试 分区表 流计算 flink 实时计算

Apache iceberg:Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。

大数据 Apache 数据仓库 Image 钉钉 spark 开源大数据 对象存储 Hive

MaxCompute SQL与Hive对比分析及使用注意事项

一个使用过Hadoop的Hive框架的大数据开发工程师,往往基本掌握了阿里云的大数据计算服务MaxCompute的90%。本次分享主要通过详细对比MaxCompute和Hive各个方面的异同及开发使用的注意事项,方便用户来开发使用MaxCompute,实现从Hive秒速迁移到MaxCompute。

大数据 飞天 SQL odps Image Hive 分区表 Mapreduce 存储 数据类型 MaxCompute

102万行代码,1270 个问题,Flink 新版发布了什么?(附最佳实践电子书)

2 月 12 日,Apache Flink 1.10.0 正式发布,在 Flink 的第一个双位数版本中正式完成了 Blink 向 Flink 的合并。在此基础之上,Flink 1.10 版本在生产可用性、功能、性能上都有大幅提升。本文将详细为大家介绍该版本的重大变更与新增特性。

python 大数据 函数 性能 SQL Apache 数据处理 配置 容器 内存管理 Hive 流计算 flink 实时计算 1.10

浅析Hive/Spark SQL读文件时的输入任务划分

本文最后留个思考题给读者们:如何设置参数彻底关闭Spark SQL data source表的文件合并? 积极回答问题即可获得社区礼物。

大数据 hadoop SQL spark scala 开源大数据 Hive file

102万行代码,1270 个问题,Flink 新版发布了什么?

阿里妹导读: Apache Flink 是公认的新一代开源大数据计算引擎,可以支持流处理、批处理和机器学习等多种计算形态,也是Apache 软件基金会和 GitHub 社区最为活跃的项目之一。 2019 年 1 月,阿里巴巴实时计算团队宣布将经过双十一历练和集团内部业务打磨的 Blink 引擎进行开源并向 Apache Flink 贡献代码,此后的一年中,阿里巴巴实时计算团队与 Apache Flink 社区密切合作,持续推进 Flink 对 Blink 的整合。

安全与风控 数据存储与数据库 网络与数据通信 python 函数 性能 SQL Apache 配置 容器 内存管理 Hive 分区表 UDF

Flink 1.10 和 Hive 3.0 性能对比(附 Demo 演示 PPT)

Flink 作为一个统一的计算引擎,旨在提供统一的流批体验以及技术栈。Flink 在 1.9 合并了 Blink 的代码,并在 1.10 中完善了大量的功能以及性能,可以运行所有 TPC-DS 的查询,性能方面也很有竞争力,Flink 1.10 是一个生产可用的、批流统一的 SQL 引擎版本。

大数据 性能 集群 测试 Hive demo Mapreduce 流计算 flink 实时计算 批流一体

Apache Flink 1.10.0 重磅发布,年度最大规模版本升级!

Flink 1.10 同时还标志着对 Blink[1] 的整合宣告完成,随着对 Hive 的生产级别集成及对 TPC-DS 的全面覆盖,Flink 在增强流式 SQL 处理能力的同时也具备了成熟的批处理能力。

python 函数 SQL Apache 配置 集群 内存 API Hive html release flink

案例详解|大数据上云助力新零售企业数智化转型,挖掘数据的价值

传统大卖场发展面临全新的挑战,本案例详细介绍在这个时代的拐点,零售企业如何借助大数据上云实现企业运营数智化转型,提升精细化运营能力,最终实现业务创新。

大数据 hadoop 数据处理 集群 数据迁移 数据分析 数加 aliyun 解决方案 Hive MaxCompute 上云 新零售 大数据上云 数智转型

回顾《网易数据基础平台建设》

主要是从数据库内核到大数据平台底层技术开发,分享网易数据科学中心多年大数据建设经验。

大数据 innodb hbase 性能 数据库 Image Hive 存储

大数据上云第一课:(1)MaxCompute授权和外表操作躲坑指南

本文主要针对于在使用MaxCompute开发过程中,对MaxCompute账号授权、外部表操作及元数据查询等相关问题做一个简单的介绍。

大数据 OSS hadoop SQL Apache odps Image string Hive Create MaxCompute

66
GO