备案控制台

开发者社区

开发者社区大数据文章正文

[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子

2017-12-19 2071

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子
$ cat customers.txt
1 Ali us
2 Bsb ca
3 Carls mx

$ hive

hive>
> CREATE TABLE IF NOT EXISTS customers(
> cust_id string,
> name string,
> country string
> )
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

hive> load data local inpath '/home/training/customers.txt' into table customers;

hive>exit

$pyspark

sqlContext =HiveContext(sc)
filterDF=sqlContext.sql(""" SELECT * FROM customers WHERE name LIKE "A%" """)

filterDF.limit(3).show()

+-------+----+-------+
|cust_id|name|country|
+-------+----+-------+
| 001| Ani| us|
+-------+----+-------+

本文转自健哥的数据花园博客园博客，原文链接：http://www.cnblogs.com/gaojian/p/7634234.html，如需转载请自行联系原作者

文章标签：

SQL

Python

HIVE

分布式计算

Spark

关键词：

Python sql

Hive表

Python spark

apache spark Python

python apache spark

嗯哼9925

目录

相关文章

诸葛子房

|

4月前

|

SQL HIVE

Hive sql 执行原理

Hive sql 执行原理

诸葛子房

42 0 0

桃李春风一杯酒

|

7天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

23 1 1

阿里云瑶池数据库SelectDB

|

28天前

|

SQL 数据可视化 Apache

阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言，助力业务平滑迁移

阿里云数据库 SelectDB 内核 Doris 的 SQL 方言转换工具， Doris SQL Convertor 致力于提供高效、稳定的 SQL 迁移解决方案，满足用户多样化的业务需求。兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言，助力业务平滑迁移。

阿里云瑶池数据库SelectDB

483 1 1

阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言，助力业务平滑迁移

桃李春风一杯酒

|

3月前

|

分布式计算 Hadoop 大数据

什么是 Hadoop 和 Spark？在 Python 中如何使用它们进行大数据处理？

【1月更文挑战第11天】

桃李春风一杯酒

75 0 0

晓之以理的喵~~

|

3月前

|

SQL 存储分布式计算

Spark与Hive的集成与互操作

Spark与Hive的集成与互操作

晓之以理的喵~~

71 0 0

晓之以理的喵~~

|

3月前

|

分布式计算 Java Scala

Spark编程语言选择：Scala、Java和Python

Spark编程语言选择：Scala、Java和Python

晓之以理的喵~~

275 0 0

Spark编程语言选择：Scala、Java和Python

诸葛子房

|

4月前

|

SQL 分布式计算 Hadoop

Hive SQL 优化

Hive SQL 优化

诸葛子房

48 1 1

Maynor

|

4月前

|

分布式计算大数据 Linux

Python大数据之PySpark(三)使用Python语言开发Spark程序代码

Python大数据之PySpark(三)使用Python语言开发Spark程序代码

Maynor

100 0 0

程序员三木

|

4月前

|

SQL 分布式计算 Hadoop

[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark：Java大师的大数据研究之旅

[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark：Java大师的大数据研究之旅

程序员三木

55 0 0

Maynor

|

4月前

|

SQL 存储大数据

手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark

手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark

Maynor

88 0 0

热门文章

最新文章

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

【Python 基础教程 02】数据类型全解析：从基础到高级，实用指南及详细使用案例

【Python 基础教程 01 全面介绍】 Python编程基础全攻略：一文掌握Python语法精髓，从C/C++ 角度学习Python的差异

使用Python实现DBSCAN聚类算法

大数据技术与Python：结合Spark和Hadoop进行分布式计算

在Python Web开发过程中：数据库与缓存，MySQL和NoSQL数据库的主要差异是什么？

【Python 基础教程 23】Python3 错误与异常处理全面指南：从入门到精通的实用教程

Redis与Python的完美结合：实现高效数据交互和应用场景全解析

DataWorks报错问题之集成hive数据源报错如何解决

DataWorks报错问题之从hive到mysql报错如何解决

Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

Apache Hudi与Hive集成手册

DataWorks常见问题之hive jdbc加载数据错误如何解决

Hive中日期处理函数的使用（date_format、date_add、date_sub、next_day）

Hive窗口函数案例总结

Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理（一篇即可学会在日常工作中使用Sqoop）

Hive Delegation Token 揭秘

Flink依赖问题之connector hive依赖冲突如何解决

相关课程

更多

Python Web开发基础

Python爬虫实战

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

用Python画圣诞树

使用Python完成RDS数据开发及分析

PolarDB for AI：在数据库中通过SQL实现AI能力

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

使用SQL语句实现数据查询操作

使用SQL语句管理索引

下一篇

阿里云oss简介和使用流程