1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有21人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

浅谈 Spark 的多语言支持(修订版)

Spark 设计上的优秀无容置疑,甫一出道便抢了 Hadoop 的 C 位,在开源大数据的黄金十年里一时风头无两,在人工智能时代的当下仍然能够与时俱进,不可谓不牛逼。架构和设计上的卓越,不遑多言,美中不足之处自然也有不少,比如调度模型跟 MapReduce 这种计算范式过于耦合,Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型,所幸在于对框架的改动不会伤经动骨。

云栖社区 系统软件 数据存储与数据库 系统研发与运维 网络与数据通信 python 深度学习 大数据 java hadoop spark scala 开源大数据 EMR

2019怎样进行大数据的入门级学习?

大数据方向的工作目前分为三个主要方向: 01.大数据工程师 02.数据分析师 03.大数据科学家

云栖社区 linux python 大数据 Java核心技术 架构 算法 java hbase hadoop 高并发 数据挖掘 spark scala Hive

浅谈 Spark 的多语言支持

Spark架构和设计上的优秀毋庸置疑,从一出道便抢了 Hadoop 的 C 位。在开源大数据的黄金十年一时风头无两,在当下人工智能时代仍然能够与时俱进,通天之处不遑多言,美中不足之处也有不少。小的方面,比如调度模型跟 MapReduce 这种计算范式过于耦合,Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型,所幸在于对框架的改动不会伤筋动骨;有些缺陷则不然,影响全局,调整起来绝非易事。

python 深度学习 大数据 java hadoop 阿里技术协会 spark scala 开源大数据 Driver EMR 多语言

macOS下 Hive 2.x 的安装与配置

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的[SQL]查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

云栖社区 大数据 hadoop SQL Apache 数据库 配置 数据仓库 spark Hive Mapreduce

好程序员分享ApacheSpark常见的三大误解

  好程序员分享ApacheSpark常见的三大误解误解一:Spark是一种内存技术   大家对Spark最大的误解就是其是一种内存技术(in-memorytechnology)。其实不是这样的!没有一个Spark开发者正式说明这个,这是对Spark计算过程的误解。

算法 PostgreSQL hdfs hadoop 程序员 测试 spark 磁盘 存储 数据存储 工作流 ApacheSpark 好程序员 park

Kubernetes知识小普及

   大部分概念Kubernete官网都有详细介绍,Kubernete中文官网 https://kubernetes.io/zh/docs/tutorials/kubernetes-basics/    官网还提供一个比较好的功能是能在线互动,见互动教程,类似实操命令初步感受。

docker 集群 微服务 容器 node 负载均衡 spark replication service kubernete

基于Spark的机器学习实战 (十二) - 推荐系统实战

将结合前述知识进行综合实战,以达到所学即所用。在推荐系统项目中,讲解了推荐系统基本原理以及实现推荐系统的架构思路,有其他相关研发经验基础的同学可以结合以往的经验,实现自己的推荐系统。

云栖社区 大数据 算法 机器学习 spark MLlib 推荐系统 协同过滤

大数据开发:剖析Hadoop和Spark的Shuffle过程差异

对于基于MapReduce编程范式的分布式计算来说,本质上而言,就是在计算数据的交、并、差、聚合、排序等过程。而分布式计算分而治之的思想,让每个节点只计算部分数据,也就是只处理一个分片,那么要想求得某个key对应的全量数据,那就必须把相同key的数据汇集到同一个Reduce任务节点来处理,那么Mapreduce范式定义了一个叫做Shuffle的过程来实现这个效果。

云栖社区 编程语言 linux 大数据 Java核心技术 算法 java hadoop reduce 排序 Image spark 分布式计算 fetch 磁盘

Spark机器学习实战 (十一) - 文本情感分类项目实战

将结合前述知识进行综合实战,以达到所学即所用。文本情感分类这个项目会将分类算法、文本特征提取算法等进行关联,使大家能够对Spark的具体应用有一个整体的感知与了解。

云栖社区 算法 机器学习 spark MLlib 索引

HBase+Spark技术双周刊 第七期

近期线上直播&线下沙龙最全资料下载往期回顾&问答专栏

hbase 数据库 钉钉 问答 spark aliyun

基于Spark的机器学习实践 (十) - 降维

通过讲解PCA算法的原理,使大家明白降维算法的大致原理,以及能够实现怎么样的功能。结合应用降维算法在分类算法使用之前进行预处理的实践,帮助大家体会算法的作用。

云栖社区 大数据 算法 数据可视化 机器学习 spark 人脸识别

如何正确学习大数据,才能少走弯路?

在技术论坛中或知乎上,看到近几万的冤家都在疑惑,学习Java应该选择什麼展开方向,这个我们在之前的文章中有提到过,Java展开在范围上有三个选择方向:

云栖社区 编程语言 linux python 大数据 架构 java hadoop spark scala 编程 zookeeper 存储

阿里靠什么支撑 EB 级计算力?

MaxCompute 是阿里EB级计算平台,经过十年磨砺,它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute 做了哪些工作,这些工作背后的原因是什么?大数据市场进入普惠+红海的新阶段,如何与生态发展共赢?人工智能进入井喷阶段,如何支持与借力?本文从过去一年的总结,核心技术概览,以及每条技术线路未来展望等几个方面做一个概述。

大数据 安全 数据仓库 数据安全 Image spark 异构数据 存储 数据存储 MaxCompute

云HBase Spark分析引擎对接云数据库POLARDB

HBase Spark分析引擎是云数据库HBase版提供的分析引擎,基于Spark提供的复杂分析、流式处理、机器学习的能力。Spark分析引擎可以对接阿里云的各种数据源,例如:云HBase数据、MongoDB、Phoenix等,同时也支持对接POLARDB数据库。

hbase 性能 数据库 集群 spark aliyun JDBC html POLARDB

阿里靠什么支撑 EB 级计算力?

MaxCompute 是阿里EB级计算平台,经过十年磨砺,它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。

大数据 安全 数据仓库 数据安全 Image spark 异构数据 存储 数据存储 MaxCompute

基于Spark的机器学习实践 (九) - 聚类算法

0 相关源码 1 k-平均算法(k-means clustering)概述 1.1 回顾无监督学习 ◆ 分类、回归都属于监督学习 ◆ 无监督学习是不需要用户去指定标签的 ◆ 而我们看到的分类、回归算法都需要用户输入的训练数据集中给定一个个明确的y值 1.2 k-平均算法与无监督学习 ◆ k-平均算法是无监督学习的一种 ◆ 它不需要人为指定一个因变量,即标签y ,而是由程序自己发现,给出类别y ◆ 除此之外,无监督算法还有PCA,GMM等 源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。

云栖社区 算法 机器学习 数据挖掘 spark MLlib

136
GO