1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. H>
  5. hive sql

当前主题:hive sql

浅析Hive/Spark SQL读文件时的输入任务划分

作者: 王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。 Hive以及Spark SQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口,大大降低了ETL等操作的门槛,

阅读全文

浅析Hive/Spark SQL读文件时的输入任务划分

Hive以及Spark SQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口,大大降低了ETL等操作的门槛,也因此在实际生产中有着广泛的应用。SQL是非过程化语言,我们写SQL的时候并不能控制具体的执行过程,它们依赖执行引擎决

阅读全文

102万行代码,1270 个问题,Flink 新版发布了什么?(附最佳实践电子书)

作者:李钰(绝顶) 导读:Apache Flink 是公认的新一代开源大数据计算引擎,可以支持流处理、批处理和机器学习等多种计算形态,也是Apache 软件基金会和 GitHub 社区最为活跃的项目之一。 2019 年 1 月,阿里巴巴实时计算团队宣布将经过

阅读全文

102万行代码,1270 个问题,Flink 新版发布了什么?

阿里妹导读: Apache Flink 是公认的新一代开源大数据计算引擎,可以支持流处理、批处理和机器学习等多种计算形态,也是Apache 软件基金会和 GitHub 社区最为活跃的项目之一。 2019 年 1 月,阿里巴巴实时计算团队宣布将经过双十一历练和

阅读全文

Flink 1.10 和 Hive 3.0 性能对比(附 Demo 演示 PPT)

作者:李劲松(之信) 如今的大数据批计算,随着 Hive 数仓的成熟,普遍的模式是 Hive metastore + 计算引擎。常见的计算引擎有 Hive on MapReduce、Hive on Tez、Hive on Spark、Spark integr

阅读全文

从 Spark Streaming 到 Apache Flink:bilibili 实时平台的架构与实践

摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面: 一、实时计算的痛点二、Saber 的平台演进三、结

阅读全文

MaxCompute 搬站的原理、实践以及常见问题

MaxCompute 是阿里巴巴自研的旗舰大数据仓库服务,与开源 Hadoop 搭建的数仓相比,一个很大的不同点是 MaxCompute 并不直接开放类似 HDFS 这样的分布式文件系统的接口,数据进出 MaxCompute 都要经由结构化数据通道 Tunn

阅读全文

Apache Flink 1.10.0 重磅发布,年度最大规模版本升级!

Flink 1.10 同时还标志着对 Blink[1] 的整合宣告完成,随着对 Hive 的生产级别集成及对 TPC-DS 的全面覆盖,Flink 在增强流式 SQL 处理能力的同时也具备了成熟的批处理能力。本篇博客将对此次版本升级中的主要新特性及优化、值得

阅读全文

hive sql相关问答

查看更多 提问题

[@小川游鱼][¥20]我用hue执行hive SQL的时候 hbase报connectionException

我用hue 执行hivesql 的时候系统报错, java.net.SocketTimeoutException:callTimeout=60000, callDuration=68043: row 'log,,00000000000000' on tabl

阅读全文

通过spark-thriftserver读取hive表执行sql时,tasks 数量怎么设置

我在使用spark-thriftserver的方式,通过beeline执行sql的时候,thriftserver会扫描所查询hive表的所有分区(hdfs上面的路径)然后有多少个路径,就会自动生成多少个task,这个task的数量可以调整吗?或者这个流程怎么优

阅读全文

Spark 【问答合集】

如何使用spark将kafka主题中的writeStream数据写入hdfs? https://yq.aliyun.com/ask/493211 当Spark在S3上读取大数据集时,在“停机时间”期间发生了什么? https://yq.aliyun.co

阅读全文

aliyun emr集群上,zeppelin上往hive表里面插入一条记录,一直卡着不动

在自带的zeppelin界面上,操作hive sql往表里面插入一条数据,一直卡着不动。是不是有bug啊? 补充一下图: ![Screen_Shot_2016_06_28_at_2_41_48_PM](https://oss-cn-hangzhou.a

阅读全文

【精品问答合集】Hbase热门问答

hbase 大量写入很慢 https://yq.aliyun.com/ask/50074 发现hbase文件大规模的丢失了 https://yq.aliyun.com/ask/46584 hbase启动脚本start-hbase的疑问 htt

阅读全文

streamsql原理和业内对比

1)请问streamsql从数据源到sql再到落库简单流程是什么样的 2)如果要统计1分钟内pv多少,streamsql能做吗,是怎么做的 3)与业内的相关技术有何优势和局限,不如hive sql

阅读全文

在Zeppelin中,使用spark sql访问不到hive的表是怎么回事

如题。在Zeppelin中,使用spark sql访问不到hive的表是怎么回事

阅读全文

Spark sql和hive导致“错误:无法找到或加载主类”

我使用Scala开发了一个使用hive进行通信的spark应用程序。它在Intellij的想法上工作得很好。但是当我构建一个具有所有依赖性的jar文件时,我收到错误 错误:无法找到或加载主类 经过进一步调试后,我发现当我包含spark SQL或hi

阅读全文

wyx88688123高性能Spark作业基础:你必须知道的调优原则及建议文章中评论
✌谢谢技术小能手☕️
1158417466605949浅谈HBase的数据分布文章中评论
对于爆发式增长的业务,本文阐述的水平扩展数据分布方法真的很赞,很有用,顶
1593732317424529浅谈HBase的数据分布文章中评论
写得很详细,很细致,赞~
楼远浅谈HBase的数据分布文章中评论
写的非常清晰,hbase初学者领教了
xx强调度、模型、同步与任务——阿里云大数据数仓建设性能优化方案文章中评论
map的倾斜,应该写的不是很对,map端倾斜,跟key的分布不均应该没有关系,因为map端又没有做汇总操作。map端的倾斜,有可能跟物理环境有关系,比如磁盘等。另外的话,map端倾斜,常见的例子是,map端做了复杂的操作,或者出现数据膨胀
squarezjzAlibaba Cloud Provider简介文章中评论
请问,能写一篇在阿里云上自搭的k8s,集成Alibaba Cloud Provider的教程吗?万分感谢
企业应用中心