1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. H>
  5. hive sql

当前主题:hive sql

使用Relational Cache加速EMR Spark数据分析

使用Relational Cache加速Spark数据分析 背景 Cache被广泛应用于数据处理的各个领域和方向上,在目前,计算速度远远大于IO访问速度依然是计算设备上最突出的矛盾,计算设备上的存储从HDD -> SSD -> NVMe -> Mem ->

阅读全文

(含活动报名)蚂蚁金服开源机器学习工具 SQLFlow,技术架构独家解读

5 月 6 日,在 QCon 全球软件开发大会(北京站)2019 上,蚂蚁金服副 CTO 胡喜正式宣布开源机器学习工具 SQLFlow,他在演讲中表示:“未来三年,AI 能力会成为每一位技术人员的基本能力。我们希望通过开源 SQLFlow,降低人工智能应用的

阅读全文

【大数据】SparkSql连接查询中的谓词下推处理(一)

本文首发于 vivo互联网技术 微信公众号 https://mp.weixin.qq.com/s/YPN85WBNcnhk8xKjTPTa2g 作者:李勇 目录: 1.SparkSql 2.连接查询和连接条件 3.谓词下推 4.内连接查询中的谓词下推规则 4

阅读全文

OPPO数据中台之基石:基于Flink SQL构建实数据仓库

作者 | 张俊 本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Flink contributor。本文主要内容如下: OPPO 实时数仓的演

阅读全文

大数据开发之路:hive篇,你看了吗?

引语 大数据开发之路漫漫其修远兮,吾将上下而求索。很多入门大数据的小伙伴,可能第一个接触到的,就是一只可爱的“小象”,也就是我们的大数据领域的数据仓库工具hive。 这只小象给我们提供了方便类SQL查询语言HQL来操纵数据,使得我们一开始不用编写复杂的代码,

阅读全文

Apache Flink®生态所面临的机遇与挑战

作者:简锋 引言 在谈生态之前,我们来聊聊什么是生态。生态是指在某个特定领域,以某个组件为核心衍生出来其他多个组件,这些组件可以间接或者直接用到这个核心组件,然后辅助这个核心组件共同完成一个更大或者更特殊的任务。Flink生态圈就是指以Flink为核心的生态

阅读全文

会 SQL 就能搞定 AI!蚂蚁金服重磅开源机器学习工具 SQLFlow

5 月 6 日,在QCon 全球软件开发大会(北京站)2019上,蚂蚁金服副 CTO 胡喜正式宣布开源机器学习工具 SQLFlow,他在演讲中表示:“未来三年,AI 能力会成为每一位技术人员的基本能力。我们希望通过开源 SQLFlow,降低人工智能应用的技术

阅读全文

Hadoop Hive迁移至MaxCompute

本文向您详细介绍如何将 Hadoop Hive 数据迁移到阿里云MaxCompute大数据计算服务上。 一、环境准备 1.1、Hadoop集群环境 在进行 Hadoop Hive 数据迁移前,您需要保证自己的Hadoop集群环境正常。本文使用的Hadoop环

阅读全文

hive sql相关问答

查看更多 提问题

在EMR类中找不到Spark-submit异常java

我有一个jar包捆绑创建一个弹簧启动应用程序,其中我创建spark会话来做一些操作。 然后我发送这个jar AWS EMR,要么运行的spark-submit或者java -jar未工作的可执行文件。 这是我的jar结构 jar -tf <jar

阅读全文

Kylin无法更新coprocessor

Kylin创建好cube后执行查询语句报错如下: ```org.apache.hadoop.hbase.exceptions.UnknownProtocolException: org.apache.hadoop.hbase.exceptions.Unkno

阅读全文

[@小川游鱼][¥20]我用hue执行hive SQL的时候 hbase报connectionException

我用hue 执行hivesql 的时候系统报错, java.net.SocketTimeoutException:callTimeout=60000, callDuration=68043: row 'log,,00000000000000' on tabl

阅读全文

请教个问题,blink在提交sql作业时,并发可以不同吗?比如,我想join两个hive表,但是两个表大小差很多,所以一个表的并发需要大一些,另外一个表的并发需要小一些,但是直接使用sql提交时,设置并发后,所有的节点都是一样的并发。有没有什么办法可以调的啊

转自钉钉群21789141:请教个问题,blink在提交sql作业时,并发可以不同吗?比如,我想join两个hive表,但是两个表大小差很多,所以一个表的并发需要大一些,另外一个表的并发需要小一些,但是直接使用sql提交时,设置并发后,所有的节点都是一样的并发

阅读全文

Zeppelin 使用Spark sql 执行show databases 只显示default 数据库, 查询不到hive数据库

版本HDP3.0 Spark2.0 ,感觉Spark 数据存储和Hive数据存储不是同一个地方, 也尝试过讲hive/conf/hive-site.xml复制到spark2/conf/ 以及 zeepelin/conf/ 并重启服务,还是查询不到hive下

阅读全文

当数据存储在对象存储中时,从Spark SQL访问Hive表

我使用spark数据帧编写器在IBM Cloud Object Storage中以parquet 格式在内部hive表中编写数据。所以,我的hive Metastore在HDP集群中,我从HDP集群运行spark作业。此spark作业将数据以parquet 格

阅读全文

Spark sql和hive导致“错误:无法找到或加载主类”

我使用Scala开发了一个使用hive进行通信的spark应用程序。它在Intellij的想法上工作得很好。但是当我构建一个具有所有依赖性的jar文件时,我收到错误 错误:无法找到或加载主类 经过进一步调试后,我发现当我包含spark SQL或hi

阅读全文

如何在sparkcontext.parallelize(...)。map()中执行Hive查询?

我无法执行下面的代码。此代码尝试使用SparkContext runJob()方法内的SparkSession从hive表执行hive查询。 val lines = sparkSession.sparkContext.parallelize(Seq("h

阅读全文

wyx88688123高性能Spark作业基础:你必须知道的调优原则及建议文章中评论
✌谢谢技术小能手☕️
1158417466605949浅谈HBase的数据分布文章中评论
对于爆发式增长的业务,本文阐述的水平扩展数据分布方法真的很赞,很有用,顶
1593732317424529浅谈HBase的数据分布文章中评论
写得很详细,很细致,赞~
楼远浅谈HBase的数据分布文章中评论
写的非常清晰,hbase初学者领教了
xx强调度、模型、同步与任务——阿里云大数据数仓建设性能优化方案文章中评论
map的倾斜,应该写的不是很对,map端倾斜,跟key的分布不均应该没有关系,因为map端又没有做汇总操作。map端的倾斜,有可能跟物理环境有关系,比如磁盘等。另外的话,map端倾斜,常见的例子是,map端做了复杂的操作,或者出现数据膨胀
squarezjzAlibaba Cloud Provider简介文章中评论
请问,能写一篇在阿里云上自搭的k8s,集成Alibaba Cloud Provider的教程吗?万分感谢
高性能服务器2折起