开发者社区大数据文章正文

玩玩SPARK

2015-04-28 904

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 没有SCALA的东东，玩不起哈。 ./spark-shell 从文件生成一个DRIVER？ val logFile = sc.textFile("hdfs://192.168.14.51:9000/usr/root/spark-root-org.

没有SCALA的东东，玩不起哈。

./spark-shell

从文件生成一个DRIVER？

val logFile = sc.textFile("hdfs://192.168.14.51:9000/usr/root/spark-root-org.apache.spark.deploy.master.Master-1-hs51.out")

看看这个东东里包含条数据？

logFile.count

来来来，作个过滤，再显示有多少条：

var theCount = logFile.filter(line=>line.contains("The"))

theCount.count

文章标签：

分布式计算

Spark

Scala

天飞

诸葛子房

4月前

SQL 分布式计算 Spark

Spark 教程系列

诸葛子房

28 0 0

JYeontu

5月前

分布式计算 Shell Spark

spark学习记录

JYeontu

21 0 0

about云

SQL 分布式计算 Hadoop

适合小白入门Spark的全面教程（一）

about云

232 0 0

about云

SQL 机器学习/深度学习分布式计算

适合小白入门Spark的全面教程（二）

about云

572 0 0

auqbllxiu

分布式计算大数据 Apache

《Apache Spark 中文实战攻略上册》下载地址

《Apache Spark 中文实战攻略（上册）》全新收录了Spark+AI Summit 2020 中文精华版峰会，Apache Spark 3.0性能优化与基础实战一书看遍！

auqbllxiu

107 0 0

auqbllxiu

分布式计算大数据 Apache

《Apache Spark 中文实战攻略上册》电子版下载

《Apache Spark 中文实战攻略（上册）》全新收录了Spark+AI Summit 2020 中文精华版峰会，Apache Spark 3.0性能优化与基础实战一书看遍！

auqbllxiu

79 0 0

阿甘兄

SQL 存储缓存

Spark入门（一篇就够了）

阿甘兄

298 0 0

开源小E

SQL 存储分布式计算

「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配

资源是影响 Spark 应用执行效率的一个重要因素。Spark 应用中真正执行 task 的组件是 Executor，可以通过spark.executor.instances 指定 Spark 应用的 Executor 的数量。在运行过程中，无论 Executor上是否有 task 在执行，都会被一直占有直到此 Spark 应用结束。

开源小E

551 0 0

开源小E

SQL 分布式计算大数据

「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化

Apache Spark 自 2010 年面世，到现在已经发展为大数据批计算的首选引擎。而在 2020 年 6 月份发布的Spark 3.0 版本也是 Spark 有史以来最大的 Release，其中将近一半的 issue 都属于 SparkSQL。这也迎合我们现在的主要场景（90% 是 SQL），同时也是优化痛点和主要功能点。我们 Erda 的 FDP 平台（Fast Data Platform）也从 Spark 2.4 升级到 Spark 3.0 并做了一系列的相关优化，本文将主要结合 Spark 3.0 版本进行探讨研究。

开源小E

226 0 1

chaojie.tang

SQL 分布式计算 Hadoop

PySpark系列教程--1.起航

从零开始PySpark系列

chaojie.tang

518 0 0

玩玩SPARK

热门文章

最新文章

相关电子书