1. 云栖社区>
  2. 全部标签>
  3. #Hive#
Hive

#Hive#

已有2人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Spark问答合集及解决方法

Spark问答合集及解决方法,转自阿里云开发者问答,大家有问题可以移步阿里云问答模块:https://developer.aliyun.com/ask/ 如何使用spark将kafka主题中的writeStream数据写入hdfs?https://yq.

大数据 hdfs 函数 Json 模块 集群 问答 控制台 spark aliyun DataFrame ask stream Hive

Dremio架构分析

一.Dremio架构 Dremio是基于Apache calcite、Apache arrow和Apache parquet3个开源框架构建,结构其核心引擎Sabot,形成这款DaaS(Data-as-a-Service)数据即服务平台;整体体验风格与其公司开源的Apache Drill非常接近。

云栖社区 架构 SQL Apache drill Hive metadata 存储 数据存储 Parquet Arrow dremio Carcite

Dremio案例_Hive数据分析

说明 Dremio-3.3.1支持Hive-2.1.1版本 1.Hive批量导入数据 a).创建表 ## 创建文本数据导入表 CREATE TABLE IF NOT EXISTS database.table_name( agent_id int, accept_time string, ...

云栖社区 Json 数据分析 string Hive Create database Tableau dremio

教程:Data Lake Analytics + OSS数据文件格式处理大全

0. 前言 Data Lake Analytics是Serverless化的云上交互式查询分析服务。用户可以使用标准的SQL语句,对存储在OSS、TableStore上的数据无需移动,直接进行查询分析。

数据存储与数据库 大数据 分布式系统与计算 OSS hadoop SQL Json Apache 正则表达式 string Hive Create 存储 数据湖 DataLake

Hadoop生态系统

Hadoop生态系统 首先我们先了解一下Hadoop的起源。然后介绍一些关于Hadoop生态系统中的具体工具的使用方法。

分布式 hbase hdfs hadoop 数据库 数据仓库 集群 数据挖掘 分布式计算 google 分布式文件系统 Hive 离线分析 zookeeper Mapreduce

搞懂分布式技术25:初探大数据计算框架与平台

1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。

分布式 大数据 storm hadoop Apache 数据处理 数据库 reduce 排序 spark 分布式计算 Hive Mapreduce 流计算

大数据平台测试

一.大数据平台测试简述 大数据平台测试包括2部分:基础能力测试和性能测试 Ⅰ).基础能力测试 大数据平台的基本功能和数据的导入导出对SQL任务、NoSQL任务、机器学习、批处理任务的支持 大数据平台是否能够通过界面的形式方便用户进行非运行维护,主要包括集群的安装、监控、配置、操作等 大数据平台是否能够提供基本的安全方案 a).

hbase hadoop 性能 高可用 集群 排序 测试 分布式计算 分布式文件系统 Hive 性能测试 权限管理 大数据平台

小红书如何实现高效推荐?解密背后的大数据计算平台架构

小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。

大数据 平台架构 Image Hive schema 报表 session 流计算 推荐系统

即将发版!Apache Flink 1.9 版本有哪些新特性?

文整理自开源大数据专场中阿里巴巴高级技术专家杨克特(鲁尼)先生的精彩演讲,主要讲解了Apache Flink过去和现在的发展情况,同时分享了对Apache Flink未来发展方向的理解。

大数据 SQL Apache Image runtime API Hive 流计算 Blink 实时计算 ApacheFlink Flink1.9.0

Spring-Boot

Spring-Boot开发常用组件划分: 1、数据操作 ORM工具 Mybatis/Jpa 数据库 Postgresql/MySQL 缓存 Redis 搜索 ElasticSearch 2、池化工具 连接池 c3p0 线程池 3、定时器 4、大数据组件 消息 ...

大数据 redis PostgreSQL mysql SQL 线程 数据库 spark Elasticsearch Hive mybatis C3P0

数据湖正在成为新的数据仓库

新一代数据仓库实际上是数据湖,对那些用于构建和训练机器学习模型的清洗,整合和验证的数据进行管理。例如,去年秋天在Amazon re:Invent 大会上,亚马逊网络服务公布了AWS Lake Formation。

云栖社区 系统软件 移动开发与客户端 大数据 Apache 人工智能 数据仓库 Hive 存储 数据存储 安全问道

【译】数据湖正在成为新的数据仓库

原文链接 https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html?upd=1561666042410 译者:诚历,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

大数据 Apache 人工智能 数据仓库 Hive 存储 数据存储

钉钉群直播【Spark Relational Cache 原理和实践】

主要介绍Relational Cache/物化视图的历史和背景,以及EMR Spark基于Relational Cache加速Spark查询的技术方案,及如何通过基于Relational Cache的数据预计算和预组织,使用Spark支持亚秒级响应的交互式分析使用场景。

云栖社区 系统软件 数据存储与数据库 系统研发与运维 大数据 hadoop Apache Cache 钉钉 spark EMR Hive 分布式系统

钉钉群直播【Migration to Apache Spark】

Spark因其统一引擎、性能、易用性等特点备受青睐,将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL),很多大公司也正在实践。 本次分享将围绕Hive迁移到SparkSQL进行展开,内容包括介绍大公司迁移流程、遇到的问题以及对Spark做的一些反馈优化。

nginx 编程语言 移动开发与客户端 网络与数据通信 ios 大数据 性能 Apache 钉钉 spark Hive 安全问道

钉钉群直播【Migration to Apache Spark】

Spark因其统一引擎、性能、易用性等特点备受青睐,将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL),很多大公司也正在实践。

安全与风控 数据存储与数据库 移动开发与客户端 linux 大数据 性能 Apache 钉钉 spark Hive

61
GO