开发者社区大数据文章正文

Spark_SQl

2017-11-24 1198

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

引入 hadoop 的core-site.xml
加入与之对应版本的Spark-client

                    和Spark-Sql  依赖

这是一个简单SparkSql 方式的Word-count 的例子

···

package com.xxx

import org.apache.spark.sql.SparkSession

object WordCount {

def main(args: Array[String]): Unit = {

val spark =SparkSession.builder().master("local[*]").appName("spark sql word count").getOrCreate()
//连接hdfs
//导入隐式转换

import spark.implicits._
import  spark.sql

//导入文件

val rdd=spark.sparkContext.textFile("/user_info.txt")
val ds =rdd toDS()

ds.printSchema()

ds.createOrReplaceTempView("line_str")
val wcResult =sql(
  """
    |select word
    |  ,count(1) as  count
    |  from(
    |  select explode(split(value,'')) as word
    |  from line_str
    |  )
    |  group by word
  """.stripMargin)
wcResult.show()

}
}

···

文章标签：

SQL

分布式计算

Spark

Hadoop

漏船载酒

阿甘兄

5月前

SQL 分布式计算 HIVE

196 Spark SQL概述

阿甘兄

36 0 0

冲冲冲冲

10月前

SQL JSON 分布式计算

Spark SQL

冲冲冲冲

71 0 0

不懂开发的程序猿

11月前

SQL 数据采集分布式计算

基于Spark SQL的数据探索

不懂开发的程序猿

139 0 0

about云

SQL JSON 分布式计算

Spark Sql系统入门4：spark应用程序中使用spark sql

about云

113 0 0

云祁

SQL 分布式计算关系型数据库

【Spark】（八）Spark SQL 应用解析1

云祁

109 0 0

云祁

SQL 分布式计算 HIVE

【Spark】（八）Spark SQL 应用解析2

云祁

173 0 0

6hkip34i2a7n6

存储 SQL 分布式计算

深入理解SPARK SQL 中HashAggregateExec和ObjectHashAggregateExec以及UnsafeRow

6hkip34i2a7n6

655 0 0

深入理解SPARK SQL 中HashAggregateExec和ObjectHashAggregateExec以及UnsafeRow

游客wkxim4agoo6le

SQL 存储分布式计算

Spark SQL概述及特点详解

笔记

游客wkxim4agoo6le

536 0 0

dasein58

SQL 存储缓存

Spark SQL的Parquet那些事儿

Parquet是一种列式存储格式，很多种处理引擎都支持这种存储格式，也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件，并且对parquet文件的schema可以自动解析。当Spark SQL需要写成Parquet文件时，处于兼容的原因所有的列都被自动转化为了nullable。 1读写Parquet文件 // Encoders for most common types are automatically provided by importing spark.implicits._ import spark.implicits._ val peop

dasein58

688 0 0

尊渊

SQL 分布式计算大数据

Spark SQL玩起来

标签（空格分隔）： Spark [toc] 前言 Spark SQL的介绍只包含官方文档的Getting Started、DataSource、Performance Tuning和Distributed SQL Engine部分。

尊渊

9425 0 0

Spark_SQl

热门文章

最新文章

相关课程

相关电子书

相关实验场景