1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有15人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

在 EMR 中使用 Mongo-Hadoop

在 EMR 中使用 Mongo-Hadoop Mongo-Hadoop 是 MongoDB 推出的用于 Hadoop 系列组件连接 MongoDB 的组件。其原理跟我们上一篇文章介绍的 ES-Hadoop 类似。

java MongoDB hadoop Apache spark EMR Hive class test Mapreduce Mongo-Hadoop

在 EMR 中使用 ES-Hadoop

在 EMR 中使用 ES-Hadoop ES-Hadoop 是 Elasticsearch(ES) 推出的专门用于对接 Hadoop 生态的工具,使得用户可以使用 Mapreduce(MR)、Spark、Hive 等工具处理 ES 上的数据(ES-Hadoop 还包含另外一部分:将 ES 的索引 snapshot 到 HDFS,对于该内容本文暂不讨论)。

java hadoop Json Apache spark 索引 EMR Elasticsearch Hive class test Mapreduce ES-Hadoop EMR,

基于Hadoop的数据分析平台搭建

企业发展到一定规模都会搭建单独的BI平台来做数据分析,即OLAP(联机分析处理),一般都是基于数据库技术来构建,基本都是单机产品。除了业务数据的相关分析外,互联网企业还会对用户行为进行分析,进一步挖掘潜在价值,这时数据就会膨胀得很厉害,一天的数据量可能会成千万或上亿,对基于数据库的传统数据分析平台的数据存储和分析计算带来了很大挑战。

hbase hdfs hadoop 性能 SQL 数据处理 数据库 数据仓库 数据分析 同步 spark 离线计算 Hive 数据同步 存储

10大热门人工智能开源工具(框架)

本文讲了10个热门的人工智能开源工具/框架。

python 深度学习 分布式 架构 算法 java 函数 Apache 人工智能 spark API GPU github 数组 神经网络

下一代大数据即时分析架构--IOTA架构

本文对比了 Lambda数据架构的痛点,通过实践和总结出新一代大数据分析架构IOTA架构,欢迎讨论

大数据 架构 PaaS spark IOT 下一代大数据分析架构 即时分析架构 大数据架构 下一代大数据即时分析架构

基于MaxCompute构建Noxmobi全球化精准营销系统

摘要:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

模块 集群 spark 流式计算 报表 MaxCompute

当HBase与云邂逅,又碰撞出了什么样的火花?

HBase与云究竟碰撞出了什么样的火花?云能给HBase带来什么样的能力?本文中,阿里云高级技术专家封神(曹龙)就为大家揭晓了答案。

分布式 大数据 hbase 数据库 集群 spark 存储

当HBase与云邂逅,又碰撞出了什么样的火花?

阿里云HBase2.0也就是阿里云即将要上线的ApsaraDB for HBase2.0。它不仅兼容开源HBase2.0,也承载着阿里多年大规模HBase使用的技术积淀,还有广大公有云用户喜欢的商业化功能。

云栖社区 数据存储与数据库 分布式 大数据 hbase 数据库 集群 spark 存储

搜狗输入法和百度输入法被爆泄露用户隐私

昨天有网友爆料,百度和搜狗输入法在联网状态下会上传用户的打字信息到服务器,并且全部都用明文传输。这就意味着,黑客可以轻松破解用户全部的打字信息,且所有信息被上传到搜狗和百度的云端。该网友呼吁百度和搜狗输入法停止侵权行为。

云栖社区 服务器 程序员 加密 数据分析 spark

你造吗?机器人都在排队买iPhone了

睡袋、小马扎已经out啦~ IPhone7发售在即,苹果零售店前渐渐开始排起长龙。在iPhone6s发售的时候,从漫天遍野的帐篷、睡袋、小马扎中,我们看到了一个新奇的“排队神器”——一台简陋的机器人。

云栖社区 spark 机器人

大数据分析系统Hadoop的13个开源工具!

hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。   用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序。

分布式 架构 storm hdfs hadoop Apache 集群 spark 解决方案 代码托管 分布式系统 Mapreduce github 大数据分析 海量数据

以慕课网日志分析为例 进入大数据 Spark SQL 的世界

微信公众号回复:“大数据1” 和"大数据2" 免费领取所有大数据相关视频。 欢迎关注我的微信公众号:"Java面试通关手册"(一个有温度的微信公众号,无广告,单纯技术分享,期待与你共同进步~~~坚持原创,分享美文,分享各种Java学习资源) 最后,就是使用阿里云服务器一段时间后,感觉阿里云真的很不错,就申请做了阿里云大使,然后这是我的优惠券地址.

大数据 java SQL 阿里云服务器 spark aliyun html 日志分析

Spark Streaming实时流处理项目实战

微信公众号回复:“大数据1” 和"大数据2" 免费领取所有大数据相关视频。 欢迎关注我的微信公众号:"Java面试通关手册"(一个有温度的微信公众号,无广告,单纯技术分享,期待与你共同进步~~~坚持原创,分享美文,分享各种Java学习资源) 最后,就是使用阿里云服务器一段时间后,感觉阿里云真的很不错,就申请做了阿里云大使,然后这是我的优惠券地址.

大数据 java 阿里云服务器 spark aliyun

开源模式下的云计算和大数据现状

开源”模式带来的好处很多,其中最吸引人的就是可以帮助企业降低成本。另外,开源模式消除了供应商的限制和壁垒,并且可让技术变得更加协作,合作者会不断更新开源软件,使技术得到持续的完善和发展。云计算和大数据目前都是热门话题,两者的发展与开源技术的结合,及如何在云上实现大数据项目,都是新的实践领域。

云栖社区 大数据 hadoop OpenStack spark 开源大数据 云计算与大数据 IT基础设施 云架构 移动互联网 传统企业

大数据分析系统Hadoop的13个开源工具

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。 用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序。

分布式 架构 storm hdfs hadoop Apache 集群 spark 解决方案 代码托管 分布式系统 Mapreduce github 大数据分析 海量数据

大数据时代数据库-云HBase架构&生态&实践

2018第九届中国数据库技术大会,阿里云高级技术专家、架构师封神(曹龙)带来题为大数据时代数据库-云HBase架构&生态&实践的演讲。主要内容有三个方面:首先介绍了业务挑战带来的架构演进,其次分析了ApsaraDB HBase及生态,最后分享了大数据数据库的实际案例。

分布式 大数据 架构 hbase SQL 数据库 高并发 集群 spark 索引 分布式文件系统 报表 存储

关于分布式计算的一些概念

不管是网络、内存、还是存储的分布式,它们最终目的都是为了实现计算的分布式:数据在各个计算机节点上流动,同时各个计算机节点都能以某种方式访问共享数据,最终分布式计算后的输出结果被持久化存储和输出。 分布式作为分布式系统里最重要的一个能力和目标,也是大数据系统的关技术之一。

分布式 大数据 架构 storm hadoop 线程 面向对象 spark 流式计算 分布式计算 Akka 离线计算 并行计算 Mapreduce

开源大数据周刊-第88期

资讯 天猫、盒马、饿了么、口碑,阿里想做的新零售到底是什么?阿里巴巴近日宣布,将通过天猫、盒马、口碑、饿了么等多个业态,在全国范围内打造“新零售之城”。作为全国首都,北京成为阿里新零售布局和试点的主要阵地之一。

分布式 大数据 安全 监控 SQL 数据处理 集群 spark 开源大数据 流处理 flink 区块链 新零售

一文理清Apache Spark内存管理脉络

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffle、JVM 等相关概念。

jvm Apache 模块 排序 内存管理 spark 磁盘 存储 数组

大数据的4大宏观趋势

如今,企业处理大数据的方式正在迅速发生改变。短短几年前,大数据只是一个热门的流行语,大多数组织都在尝试使用Hadoop和相关技术。如今,大数据技术,特别是大数据分析已经演变成为大多数企业战略的重要组成部分,企业面临着紧跟大数据快速发展的巨大压力。

大数据 性能 人工智能 spark 云服务 大数据分析

105
GO