1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有14人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Mesosphere协同其数据合作伙伴在容器2.0时代和DC/OS上的赌注

本文讲的是Mesosphere协同其数据合作伙伴在容器2.0时代和DC/OS上的赌注【编者的话】本文为Mesosphere在其官方博客中发布的关于容器2.0时代中其数据合作伙伴及DC/OS的介绍。

云栖社区 消息系统 Apache os 微服务 容器 spark Cassandra 物联网 分布式数据库 数据应用

DockOne微信分享(八十六):深入解析DC/OS 1.8——高可靠的微服务及大数据管理平台

本文讲的是DockOne微信分享(八十六):深入解析DC/OS 1.8——高可靠的微服务及大数据管理平台【编者的话】Apache Mesos是经过大规模生产系统验证过的集群资源管理及调度软件中的佼佼者。

大数据 docker os 配置 微服务 容器 操作系统 负载均衡 Framework spark Mesos 数据中心 service network

容器和微服务在Hadoop生态系统中找到一席之地

本文讲的是容器和微服务在Hadoop生态系统中找到一席之地【编者的话】容器和微服务凭借构架上的灵活优势,已经杀进了Hadoop生态系统。分别位于德国和美国两家公司的技术高管对此提出了自己的观点。

大数据 架构 docker hadoop 数据流 集群 微服务 电商 容器 spark 机器人

谈谈Apache Mesos和Mesosphere DCOS:历史、架构、发展和应用

本文讲的是谈谈Apache Mesos和Mesosphere DCOS:历史、架构、发展和应用,【编者的话】Mesos 是一个很年轻的开源项目,它的理念是怎样的? 它的整体架构以及服务对象又是什么? 基于此的 Mesosphere DCOS 又是如何定位的? 本文作者就这些话题展开了探讨。

分布式 架构 Apache 主机 操作系统 spark Mesos 分布式系统 数据中心

剖析Docker Swarm和Mesos:是什么?如何结合?有什么优势?

本文讲的是剖析Docker Swarm和Mesos:是什么?如何结合?有什么优势?,【编者的话】本文来自Mesosphere,从生产环境的需求出发,简要介绍了Docker Swarm的诞生背景,以及其与Mesos、 Mesosphere DCOS之间的关系,同时,也阐述了Mesosphere管理大规模容器的方式以及它和Swarm是如何结合的。

大数据 docker 高可用 集群 容器 spark Mesos 数据中心

关于Apache Mesos的一些想法

本文讲的是关于Apache Mesos的一些想法,【编者的话】本文简单介绍了Mesos以及融合Mesos和YARN的Myriad项目。文中有个不错的比喻来解释Mesos的资源处理方式,Mesos的资源处理方式就像家长主持一个孩子的生日派对......

云栖社区 Apache 集群 spark Mesos

去哪儿网基于Mesos和Docker构建私有云服务的实践

本文讲的是去哪儿网基于Mesos和Docker构建私有云服务的实践【编者的话】本文深入介绍了去哪儿网利用Mesos和Docker构建私有云服务的全过程,分享了从无状态应用向有状态应用逐步过度的经验与心得。

监控 docker 配置 容器 spark Mesos 私有云

【独家】一文读懂大数据计算框架与平台

1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。

分布式 大数据 storm hadoop Apache 数据处理 数据库 reduce spark 分布式计算 Mapreduce 数据存储 流计算

独家 | 一文读懂大数据处理框架

前言 说起大数据处理,一切都起源于Google公司的经典论文:《MapReduce:Simplied Data Processing on Large Clusters》。在当时(2000年左右),由于网页数量急剧增加,Google公司内部平时要编写很多的程序来处理大量的原始数据:爬虫爬到的网页、网页请求日志;计算各种类型的派生数据:倒排索引、网页的各种图结构等等。

大数据 架构 storm hdfs hadoop Apache 数据处理 数据流 集群 spark Mapreduce 存储

仁人帮探索大数据技术

前两期小帮为大家介绍了仁人帮的大数据定义与大数据在仁人帮后台的应用。今天也不跟大家卖关子了,接下来,小帮为大家奉上的是大数据平台技术的探索。 大数据技术,小帮认为可以分成两个大的层面,大数据平台技术与大数据应用技术。

分布式 大数据 架构 阿里云 数据库 数据仓库 集群 odps 数加 spark 解决方案 分布式计算 存储 MaxCompute 数据应用

介绍一位分布式流处理新贵:Kafka Stream

本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka Stream。接着介绍了Kafka Stream的整体架构,并行模型,状态存储,以及主要的两种数据集KStream和KTable。

分布式 storm 线程 spark 流式计算 Consumer stream 存储

对比Hadoop Spark受多方追捧的原因

文章讲的是对比Hadoop Spark受多方追捧的原因,作者Mikio Braun是柏林工业大学机器学习专业的博士后,他通过描述了自己对Spark逐步认识的过程,为我们剖析了Spark的原理和应用。作为通用的并行处理框架,Spark具有类似Hadoop的一些优点,而且Spark采用了更好的内存管理,在迭代计算上具有比Hadoop更高的效率,Spark还提供了更为广泛的数据集操作类型,大大方便了用户的开发,checkpoint的应用使Spark具有很强容错能力,众多优越的性能和比Hadoop更广泛的适用面让Spark的进一步发展值得期待。

分布式 hadoop 内存管理 spark 分布式计算 分布式文件系统 磁盘 单元测试 存储 流数据

私人珍藏,九个开源的顶级深度学习项目

在过去几年,计算机科学家在人工智能(AI)方面取得了巨大的飞跃,也让人工智能技术变得越来越普遍。 而深度学习无疑又是人工智能的研究热点,那么现在都有哪些最流行的开源深度学习工具? 本文将为您推荐最着名的9个开源顶级深度学习项目。

linux python 深度学习 分布式 服务器 hadoop windows 人工智能 可扩展性 操作系统 spark GPU 推荐引擎

开源大数据周刊-第68期

资讯: 2020年我国大数据产业将破万亿 近日,《2017中国大数据产业发展白皮书》发布。《每日经济新闻》记者对照工信部及各地出台的大数据发展规划进行梳理后发现,到2020年,我国大数据相关产品和服务业务收入将突破1万亿元,年均复合增长率保持30%左右。

云栖社区 大数据 阿里云 hadoop HTTPS http spark 开源大数据 磁盘

如何构建企业级Hadoop/Spark分析平台

文章讲的是如何构建企业级Hadoop/Spark分析平台,一说大数据,人们往往想到Hadoop。这固然不错,但随着大数据技术的深入应用,多种类数据应用要求的不断提出,一些Hadoop不甚专注的领域开始被人们注意,相关技术也迅速获得专业技术领域的应用。

分布式 大数据 hadoop 性能 SQL reduce 数据仓库 集群 数据分析 数据挖掘 spark 高性能 统计算法

关于CarbonData+Spark SQL的一些应用实践和调优经验分享

大数据时代,中大型企业数据的爆发式增长,几乎每天都能产生约 100GB 到 10TB 的数据。而企业数据分系统构建与扩张,导致不同应用场景下大数据冗余严重。行业亟需一个高效、统一的融合数仓,从海量数据中快速获取有效信息,从而洞察机遇、规避风险。

大数据 性能 SQL spark 索引 存储

《中国人工智能学会通讯》——12.5 并行序列模式挖掘

本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.5节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

算法 人工智能 spark 索引 序列 并行计算 Mapreduce 数据类型

为什么Spark发展不如Hadoop?

文章讲的是为什么Spark发展不如Hadoop,一说大数据,人们往往想到Hadoop。这固然不错,但随着大数据技术的深入应用,多种类型的数据应用不断被要求提出,一些Hadoop被关注的范畴开始被人们注意,相关技术也迅速获得专业技术范畴的应用。

大数据 hadoop 性能 源码 reduce RAM 数据分析 spark 数据应用

10分钟让你明白大数据 网友观点大拆解

文章讲的是10分钟让你明白大数据 网友观点大拆解,大数据的概念被吵的越来越厉害,这对于一个新技术领域的诞生是一个必经过程。对于“大数据”(Big Data),研究机构Gartner给出的定义是:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据 算法 hdfs hadoop SQL 数据处理 reduce spark Hive Mapreduce 流计算

大规模机器学习流程的构建与部署

文章讲的是大规模机器学习流程的构建与部署,现在有许多的机器学习算法实现是可以扩展到大数据集上的(其中包括矩阵分解、SVM、逻辑回归、LASSO 等等)。实际上,机器学习专家们很乐于指出的一点是:如果你能把机器学习问题转化为一个简单的数值优化问题,你就几近成功了。

分布式 大数据 算法 程序员 Apache 模块 spark 伪代码 数据类型

65
GO