1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有14人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Spark入门

spark历史:伯克利实验室研究项目,基于Hadoop的Mapreduce机制,引入内存管理机制,提高了迭代式计算和交互式中的效率。 spark组件: spark core:spark基本功能,包括任务调度,内存管理,容错机制 内部定义了RDDs(弹性分布式数据集),提供多个APIs调用,为...

分布式 数据流 cluster 集群 内存管理 测试 spark 并行计算 报表 Mapreduce 流数据

Log Aggregation Status TIME_OUT的缘起

在spark on yarn运行中,有时会发现spark程序运行完毕后,spark的运行界面没有信息,或者找不到相关的运行信息了,经仔细查看NodeManager UI ,出现如下信息: Log Aggregation Status TIME_OUT

hdfs hadoop 日志 LOG 配置 spark 分布式文件系统 status Aggregation TIME_OUT的缘起

一共81个,开源大数据处理工具汇总(上)

本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。 查询引擎 一、Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。

分布式 大数据 架构 hbase hadoop 性能 Apache 高可用 数据库 spark 开源大数据 Cassandra google Hive 高性能

日志服务(原SLS)新功能发布(4)-- 使用OSS进行日志存储与分析

对于大部分开发者而言,经常会面临这样一种场景:“我知道日志数据很宝贵,但今天没有明确需要,能否有一种成本很低的方案先把日志备份起来,不占用空间。有一天有明确需求时,能够快速、方便分析日志”。 日志服务推出 LogShipper功能就是为了该问题诞生的,LogShipper可以便捷地将日志数据投

OSS 日志 SLS odps spark 离线计算 EMR 离线分析 表格存储 存储 日志分析 流数据

Spark_Streaming

练习例子1。 package com.haiyang import java.nio.charset.Charset import org.apache.flume.api.RpcClientFactory import org.

数据存储与数据库 mysql Apache spark string unit

Data Processing with SMACK: Spark, Mesos, Akka, Cassandra, and Kafka

Data Processing with SMACK: Spark, Mesos, Akka, Cassandra, and Kafka This article introduces the SMACK (Spark, Mesos, Akka, Cassandra, and Kafk

hadoop Cloud spark API SMACK Mesos Akka Cassandra Programming kafka Developer_blog

biji

1.强类型语言 弱类型语言 强类型语言:定义对象或变量时,需要指定其归属类型 一旦一个变量类型确定,它所归属的类型不可再变 弱类型语言:定义变量时不用指定变量类型 在程序运行中,可以改变变量的的归属类型 scala变量定义: var str = "abc...

数据存储与数据库 java 函数 数据处理 spark scala string class 数据类型

Spark Test

练习关于讲list分为奇 偶 并求出占比 练习 关于需求 表合并 reduce filter 等操作 Spark 中 RDD 过程 transformation 和 Action 大多数操作基于transformation 所以 可以链式写法 package com.

数据存储与数据库 spark scala test list

Spark..........WordCount

quickstart 将英文单词基数 简单 整个过程比起hadoop快很多 package com.zhiyou100 import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args:...

数据存储与数据库 分布式 线程 spark 多线程

Spark_SQl

引入 hadoop 的core-site.xml 加入与之对应版本的Spark-client 和Spark-Sql 依赖 这是一个简单SparkSql 方式的Word-count 的例子 ··· package com.

数据存储与数据库 hadoop SQL Apache spark string Group unit

Spark机器学习8· 文本处理(spark-shell)

![](http://img3.douban.com/lpic/s28277325.jpg) [Spark机器学习](http://book.douban.com/subject/26593179/) 自然语言处理(NLP,Natural Language Processing) - 提取...

机器学习 Apache 阿里技术协会 spark scala MLlib file

Spark机器学习6·聚类模型(spark-shell)

![](http://img3.douban.com/lpic/s28277325.jpg) [Spark机器学习](http://book.douban.com/subject/26593179/) - K-均值(K-mean)聚类 目的:最小化所有类簇中的方差之和 - 类簇内方差和...

机器学习 Apache 阿里技术协会 Animation spark scala MLlib mean

Spark机器学习5·回归模型(pyspark)

![](http://img3.douban.com/lpic/s28277325.jpg) [Spark机器学习](http://book.douban.com/subject/26593179/) - 分类模型的预测目标是:类别编号 - 回归模型的预测目标是:实数变量 回归模型种...

python 机器学习 阿里技术协会 http spark mean

Spark机器学习2·准备数据(pyspark)

![](http://img3.douban.com/lpic/s28277325.jpg) [Spark机器学习](http://book.douban.com/subject/26593179/) ### 准备环境 #### anaconda ``` nano ~/.

python 机器学习 阿里技术协会 http path spark index

Spark机器学习3·推荐引擎(spark-shell)

![](http://img3.douban.com/lpic/s28277325.jpg) [Spark机器学习](http://book.douban.com/subject/26593179/) ### 准备环境 - jblas https://gcc.

机器学习 Apache 阿里技术协会 spark scala MLlib mean 推荐引擎

Spark机器学习4·分类模型(spark-shell)

![](http://img3.douban.com/lpic/s28277325.jpg) [Spark机器学习](http://book.douban.com/subject/26593179/) - 线性模型 - 逻辑回归--逻辑损失(logistic loss) - 线性...

机器学习 Apache 阿里技术协会 spark scala MLlib

Spark机器学习7·降维模型(scala&python)

![](http://img3.douban.com/lpic/s28277325.jpg) [Spark机器学习](http://book.douban.com/subject/26593179/) - PCA(主成分分析法,Principal Components Analysis) ...

python 机器学习 Apache 阿里技术协会 http path Image spark scala file

72
GO