1. 云栖社区>
  2. 全部标签>
  3. #Hive#
Hive

#Hive#

已有2人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

如何在Hive中创建自定义函数UDF及如何直接通过Impala的同步元数据重用UDF的jar文件

如何在Hive中创建自定义函数UDF及使用 如何在Impala中使用Hive的自定义函数 UDF函数开发 使用Intellij工具开发Hive的UDF函数,进行编译;1.使用Intellij工具通过Maven创建一个Java工程,并添加pom.

hdfs hadoop 函数 Apache shell js 测试 同步 string Hive 数据同步 UDF Create

袋鼠云研发手记 | 数栈DTinsight:详解FlinkX中的断点续传和实时采集

数栈-离线开发平台(BatchWorks) 中的数据离线同步任务、数栈-实时开发平台(StreamWorks)中的数据实时采集任务已经统一基于FlinkX来实现。

服务器 mysql hdfs 日志 数据库 袋鼠云 同步 stream Hive 数据同步 插件 binlog 数据中台

回顾 | Apache Flink Meetup ·上海站(附PPT下载链接)

9 月 7 日,Apache Flink Meetup 上海站,上海的同学再次演绎了站无虚席的爆满场面。现场来自阿里巴巴、intel、趣头条的技术专家们分享了 Zeppelin 中玩转 Flink 与 Hive、趣头条的应用实践、Flink 性能优化、TensorFlow 与 Flink 的应用实践等众多干货内容,并有 Demo 演示环节。

深度学习 大数据 性能优化 Apache 数据处理 集群 平台架构 Hive demo 流计算 大数据分析 实时计算 ApacheFlink

Apache Flink 1.9.0版本新功能介绍

摘要:Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。目前,Apache Flink 1.9.0版本已经正式发布,该版本有什么样的里程碑意义,又具有哪些重点改动和新功能呢?本文中,阿里巴巴高级技术专家伍翀就为大家带来了对于Apache Flink 1.9.0版本的介绍。

架构 SQL Apache API Hive 流计算 flink

Dremio架构分析

一.Dremio架构 Dremio是基于Apache calcite、Apache arrow和Apache parquet3个开源框架构建,结构其核心引擎Sabot,形成这款DaaS(Data-as-a-Service)数据即服务平台;整体体验风格与其公司开源的Apache Drill非常接近。

云栖社区 架构 SQL Apache drill Hive metadata 存储 数据存储 Parquet Arrow dremio Carcite

Apache Zepplin使用Hive Interpreter查询

1.Hadoop a).配置core-site.xml hadoop文件core-site.xml中配置信息如下,重启HDFS <property> <name>hadoop.proxyuser.

hdfs hadoop Apache 配置 JDBC xml Hive database service Interpreter Zepplin

如何在 Flink 1.9 中使用 Hive?

Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能,用户可以通过 Flink 来访问 Hive 的元数据,以及读写 Hive 中的表。本文将主要从项目的设计架构、最新进展、使用说明等方面来介绍这一功能。

大数据 架构 hadoop SQL 配置 集群 API Hive 分区表 数据类型

HIVE优化浅谈

HIVE优化浅谈 作者:邓力,entobit技术总监,八年大数据从业经历,由一代HADOOP入坑,深耕云计算应用领域,由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域,对大数据生态及框架应用有深刻理解。

大数据 性能优化 性能 reduce 数据仓库 Hive Create Mapreduce 存储 阿里云EMR

Alluxio使用——Hive篇

1.服务启停 Zookeeper ./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg ./zookeeper/bin.zkServer.

云栖社区 hadoop 测试 string Hive zookeeper alluxio

玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源

玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源 作者:邓力,entobit技术总监,八年大数据从业经历,由一代HADOOP入坑,深耕云计算应用领域,由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域,对大数据生态及框架应用有深刻理解。

大数据 架构 分布式系统与计算 MongoDB 域名 mysql 集群 控制台 aliyun 运营 EMR Hive 磁盘

Apache Drill 常用Plugins配置

1.kafka { "type":"kafka", "kafkaConsumerProps":{ "bootstrap.servers":"hostname1:9092,hostname2:9092,hostname3:9092", "group.

云栖社区 mysql hbase hdfs Apache 配置 drill JDBC Driver Hive type kafka OpenTSDB kudu

修改代码150万行!Apache Flink 1.9.0做了这些重大修改!

阿里妹导读:8月22日,Apache Flink 1.9.0 正式发布。早在今年1月,阿里便宣布将内部过去几年打磨的大数据处理引擎Blink进行开源并向 Apache Flink 贡献代码。此次版本在结构上有重大变更,修改代码达150万行,接下来,我们一起梳理 Flink 1.9.0 中非常值得关注的重要功能与特性。

架构 Apache 模块 API Hive 流计算

Spark问答合集及解决方法

Spark问答合集及解决方法,转自阿里云开发者问答,大家有问题可以移步阿里云问答模块:https://developer.aliyun.com/ask/ 如何使用spark将kafka主题中的writeStream数据写入hdfs?https://yq.

大数据 hdfs 函数 Json 模块 集群 问答 控制台 spark aliyun DataFrame ask stream Hive

Dremio案例_Hive数据分析

说明 Dremio-3.3.1支持Hive-2.1.1版本 1.Hive批量导入数据 a).创建表 ## 创建文本数据导入表 CREATE TABLE IF NOT EXISTS database.table_name( agent_id int, accept_time string, ...

云栖社区 Json 数据分析 string Hive Create database Tableau dremio

教程:Data Lake Analytics + OSS数据文件格式处理大全

0. 前言 Data Lake Analytics是Serverless化的云上交互式查询分析服务。用户可以使用标准的SQL语句,对存储在OSS、TableStore上的数据无需移动,直接进行查询分析。

数据存储与数据库 大数据 分布式系统与计算 OSS hadoop SQL Json Apache 正则表达式 string Hive Create 存储 数据湖 DataLake

Hadoop生态系统

Hadoop生态系统 首先我们先了解一下Hadoop的起源。然后介绍一些关于Hadoop生态系统中的具体工具的使用方法。

分布式 hbase hdfs hadoop 数据库 数据仓库 集群 数据挖掘 分布式计算 google 分布式文件系统 Hive 离线分析 zookeeper Mapreduce

62
GO