玩玩SPARK

简介: 没有SCALA的东东,玩不起哈。 ./spark-shell 从文件生成一个DRIVER? val logFile = sc.textFile("hdfs://192.168.14.51:9000/usr/root/spark-root-org.

没有SCALA的东东,玩不起哈。

./spark-shell

从文件生成一个DRIVER?

val logFile = sc.textFile("hdfs://192.168.14.51:9000/usr/root/spark-root-org.apache.spark.deploy.master.Master-1-hs51.out")

看看这个东东里包含条数据?

logFile.count

来来来,作个过滤,再显示有多少条:

var theCount = logFile.filter(line=>line.contains("The"))

theCount.count

目录
相关文章
|
4月前
|
SQL 分布式计算 Spark
Spark 教程系列
Spark 教程系列
28 0
|
5月前
|
分布式计算 Shell Spark
spark学习记录
spark学习记录
21 0
|
SQL 分布式计算 Hadoop
适合小白入门Spark的全面教程(一)
适合小白入门Spark的全面教程(一)
232 0
适合小白入门Spark的全面教程(一)
|
SQL 机器学习/深度学习 分布式计算
适合小白入门Spark的全面教程(二)
适合小白入门Spark的全面教程(二)
572 0
适合小白入门Spark的全面教程(二)
|
分布式计算 大数据 Apache
《Apache Spark 中文实战攻略上册》下载地址
《Apache Spark 中文实战攻略(上册)》全新收录了Spark+AI Summit 2020 中文精华版峰会,Apache Spark 3.0性能优化与基础实战一书看遍!
107 0
《Apache Spark 中文实战攻略上册》下载地址
|
分布式计算 大数据 Apache
《Apache Spark 中文实战攻略上册》电子版下载
《Apache Spark 中文实战攻略(上册)》全新收录了Spark+AI Summit 2020 中文精华版峰会,Apache Spark 3.0性能优化与基础实战一书看遍!
79 0
《Apache Spark 中文实战攻略上册》电子版下载
|
SQL 存储 缓存
Spark入门(一篇就够了)
Spark入门(一篇就够了)
298 0
Spark入门(一篇就够了)
|
SQL 存储 分布式计算
「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配
资源是影响 Spark 应用执行效率的一个重要因素。Spark 应用中真正执行 task 的组件是 Executor,可以通过spark.executor.instances 指定 Spark 应用的 Executor 的数量。在运行过程中,无论 Executor上是否有 task 在执行,都会被一直占有直到此 Spark 应用结束。
551 0
「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配
|
SQL 分布式计算 大数据
「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化
Apache Spark 自 2010 年面世,到现在已经发展为大数据批计算的首选引擎。而在 2020 年 6 月份发布的Spark 3.0 版本也是 Spark 有史以来最大的 Release,其中将近一半的 issue 都属于 SparkSQL。这也迎合我们现在的主要场景(90% 是 SQL),同时也是优化痛点和主要功能点。我们 Erda 的 FDP 平台(Fast Data Platform)也从 Spark 2.4 升级到 Spark 3.0 并做了一系列的相关优化,本文将主要结合 Spark 3.0 版本进行探讨研究。
226 0
「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化
|
SQL 分布式计算 Hadoop
PySpark系列教程--1.起航
从零开始PySpark系列
518 0
PySpark系列教程--1.起航