1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有11人关注此标签

内容分类:
博客 | 问答 | 视频 |

《Scala机器学习》一一导读

前  言 这是一本关于机器学习的书,它以Scala为重点,介绍了函数式编程方法以及如何在Spark上处理大数据。九个月前,当我受邀写作本书时,我的第一反应是:Scala、大数据、机器学习,每一个主题我都曾彻底调研过,也参加了很多的讨论,结合任何两个话题来写都具有挑战性,更不用说在一本书中结合这三个主题。

大数据 架构 HTTPS 人工智能 数据分析 spark scala aliyun facebook

《Scala机器学习》一一3.7 总结

本节书摘来自华章出版社《Scala机器学习》一 书中的第3章,第3.7节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

算法 hadoop 函数 spark scala 编程

《Scala机器学习》一一3.6 运行Hadoop的HDFS

本节书摘来自华章出版社《Scala机器学习》一 书中的第3章,第3.6节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

hdfs hadoop HTTPS http 高可用 集群 Image spark scala 分布式文件系统 分布式存储 磁盘 存储

《Scala机器学习》一一3.5 Spark的性能调整

本节书摘来自华章出版社《Scala机器学习》一 书中的第3章,第3.5节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

性能 配置 spark scala Driver 数据类型

《Scala机器学习》一一3.4 机器学习库

本节书摘来自华章出版社《Scala机器学习》一 书中的第3章,第3.4节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

分布式 算法 函数 HTTPS Image spark scala DataFrame MLlib 协同过滤

《Scala机器学习》一一3.3 应用

本节书摘来自华章出版社《Scala机器学习》一 书中的第3章,第3.3节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

HTTPS shell Image spark scala 磁盘 Mapreduce 存储

《Scala机器学习》一一3.2 理解Spark的架构

本节书摘来自华章出版社《Scala机器学习》一 书中的第3章,第3.2节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

分布式 架构 hdfs HTTPS 配置 集群 Image spark scala Mesos Cassandra 存储

《Scala机器学习》一一3.1 安装Spark

本节书摘来自华章出版社《Scala机器学习》一 书中的第3章,第3.1节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

HTTPS Apache http Image spark scala html

《Scala机器学习》一一第3章 使用Spark和MLlib

第3章 使用Spark和MLlib 上一章介绍了在全局数据驱动的企业架构中的什么地方以及如何利用统计和机器学习来处理知识,但接下来不会介绍Spark和MLlib的具体实现,MLlib是Spark顶层的机器学习库。

分布式 大数据 架构 算法 配置 spark scala DataFrame MLlib 多线程 分布式数据库 磁盘 Mapreduce

《Scala机器学习》一一1.7 总结

本节书摘来自华章出版社《Scala机器学习》一 书中的第1章,第1.7节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

SQL 数据分析 spark scala DataFrame

《Scala机器学习》一一1.5 使用Scala和Spark的Notebook工作

本节书摘来自华章出版社《Scala机器学习》一 书中的第1章,第1.5节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

分布式 HTTPS Apache http Image spark scala DataFrame 分布式计算

《Scala机器学习》一一1.3 数值字段概述

本节书摘来自华章出版社《Scala机器学习》一 书中的第1章,第1.2节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

正则表达式 spark scala DataFrame

《Scala机器学习》一一第1章 探索数据分析

第1章 探索数据分析 在本书深入研究复杂的数据分析方法之前,先来关注一些基本的数据探索任务,这些任务几乎会占据数据科学家80%~90%的工作时间。据估计,每年仅仅是数据准备、清洗、转换和数据聚合就有440亿美元的产值(Data Preparation in the Big Data Era by Federico Castanedo; Best Practices for Data Integration, O?Reilly Media, 2015)。

分布式 大数据 算法 函数 c++ 数据分析 数据挖掘 spark scala 编程 分布式存储 数据结构

【对标TensorFlow】阿里公开内部超大规模分布式机器学习平台

近年来,随着“大”数据及“大”模型的出现,学术界和工业界对分布式机器学习算法引起了广泛关注。针对这一刚需,阿里集团和蚂蚁金服设计了自己的分布式平台——鲲鹏。鲲鹏结合了分布式系统及并行优化算法,解决了大规模机器学习算法带来的一系列问题,不仅囊括了数据/模型并行、负载平衡、模型同步、稀疏表示、工业容错等特性,而且还提供了封闭好的、宜于调用的 API 供普通的机器学习者开发分布式算法,降低使用成本并提升效率。

分布式 架构 算法 HTTPS 阿里巴巴 Image spark 分布式计算

Apache Beam欲通过uber api获取大数据

现在,有用的Apache大数据项目似乎每日更新。相比于每次都重新学习的方式,如果可以通过一个统一的API如何呢? 长期开玩笑说Hadoop生态系统是那种如果你不喜欢一个为特定系统的API,等待五分钟,两个新的Apache项目将出现随之而来崭新的API可供学习。

大数据 Apache sdk 数据处理 数据流 测试 正则表达式 spark API

论各类BI工具的“大数据”特性

市面上的BI工具形形色色,功能性能包装得十分亮丽,但实际应用中我们往往更关注的是朴实的技术特性和解决方案。对于大数据,未来的应用趋势不可抵挡,很多企业也正存在大数据分析处理展现的需求,以下我们列举市面上主流的三款BI系统,就“大数据”特性展开探讨,主要是与hadoop、Spark、多维分析数据库的对接和性能。

大数据 Greenplum 性能 数据库 数据仓库 spark Hive 大数据分析 Tableau 多维分析 Teradata

Monitoring Apache Spark 面临新挑战

大数据处理已经进入了新时代,数据的复杂度越来越高,人们对数据实时处理的要求也越来越高。新时代带来了很多的新改变,但是最大程度创造数据价值是大数据时代不变的宗旨。随着实时数据处理的用例越来越多,实时数据处理框架也丰富起来,例如, Apache Spark、Storm、 Heron、 Flink、Apex、 Kafka Streams 等等。

大数据 监控 Apache 数据处理 基础设施 配置 集群 spark Driver

收购Roambi,SAP欲领导商务分析云迁移全球市场

SAP日前宣布计划利用基于 SAP HANA平台、预测功能以及移动商务智能的创新成果提升在云领域的领导地位。 继收购了Roambi公司的一系列解决方案及相关重要资产后,SAP 计划让所有人都能通过移动设备使用商务分析工具。

监控 持续交付 spark 解决方案

构建成功大数据基础设施的七大关键点

大数据是当今许多企业IT运营的一个重要组成部分。据知名调研公司IDC预测,到2019年,大数据市场产值将达到1870亿美元。大数据是数据分析的一个关键部分,而分析又是机器和人类商业智能及决策的基础。因为很明显,要是没有某种基础设施,你无法获得各种数据:大数据、小数据或完全正确的数据,所以有必要看一看有助于构建成功大数据架构的几个因素。

大数据 数据可视化 hadoop SQL 数据库 基础设施 云存储 spark Hive 存储 数据存储 大数据分析

SAP收购Roambi 领导全球市场商务分析云迁移

SAP 日前宣布计划利用基于 SAP HANA 平台、预测功能以及移动商务智能的创新成果,让用户从消费者级体验和企业级性能中获益,从而提升 SAP 在云领域的领导地位。继收购了 Roambi 公司的一系列解决方案及相关重要资产后,SAP 计划让所有人都能通过移动设备使用商务分析工具。

spark 解决方案

48
GO