1. 云栖社区>
  2. 全部标签>
  3. #开源大数据#
开源大数据

#开源大数据#

已有1人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

阿里巴巴为什么选择Apache Flink?

作者:王峰 整理:韩非 本文主要整理自云栖大会阿里巴巴计算平台事业部资深技术专家王峰(花名:莫问)在云栖大会‘开发者生态峰会’上发表的演讲。 伴随着海量增长的数据,数字化时代的未来感扑面而至。

大数据 Apache 数据处理 流式计算 开源大数据 API 分布式架构 流计算 flink 实时计算

4月26日云栖精选夜读 | 阿里开发者招聘节 面试题02-04:给定一个二叉搜索树(BST),找到树中第K小的节点

阿里巴巴资深技术专家们结合多年的工作、面试经验总结提炼而成的笔试真题这一次将陆续放出(面试题答案将在专辑分享结束后统一汇总分享)。并通过这些笔试真题开放阿里巴巴工作机会,让更多的开发者加入到阿里这个大平台。

linux mysql 云服务器 钉钉 开源大数据 多线程 云服务 面试题 离线分析 数据结构

从数砖开源 Delta Lake 说起

Spark AI 北美峰会的第一天,坊间传闻被证实,Databrics(俗称数砖,亦称砖厂)的杀手锏 Delta 产品特性作为 Delta Lake 项目开源!会前,笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流,谈到 Delta 时被告知会有相关重磅在大会上宣布,但却没想到是开源出去。

云栖社区 数据存储与数据库 大数据 实时系统 hadoop Apache spark 开源大数据 存储 Delta

浅谈 Spark 的多语言支持

Spark架构和设计上的优秀毋庸置疑,从一出道便抢了 Hadoop 的 C 位。在开源大数据的黄金十年一时风头无两,在当下人工智能时代仍然能够与时俱进,通天之处不遑多言,美中不足之处也有不少。小的方面,比如调度模型跟 MapReduce 这种计算范式过于耦合,Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型,所幸在于对框架的改动不会伤筋动骨;有些缺陷则不然,影响全局,调整起来绝非易事。

python 深度学习 大数据 java hadoop 阿里技术协会 spark scala 开源大数据 Driver EMR 多语言

浅谈 Spark 的多语言支持(修订版)

Spark 设计上的优秀无容置疑,甫一出道便抢了 Hadoop 的 C 位,在开源大数据的黄金十年里一时风头无两,在人工智能时代的当下仍然能够与时俱进,不可谓不牛逼。架构和设计上的卓越,不遑多言,美中不足之处自然也有不少,比如调度模型跟 MapReduce 这种计算范式过于耦合,Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型,所幸在于对框架的改动不会伤经动骨。

云栖社区 系统软件 数据存储与数据库 系统研发与运维 网络与数据通信 python 深度学习 大数据 java hadoop spark scala 开源大数据 EMR

4月23日云栖精选夜读 | 阿里云首次在ASPLOS'19发布重磅论文:揭秘帮助ECS快速迭代的热升级技术

阿里云首次在ASPLOS上发表论文,第24届ACM编程语言和操作系统(ASPLOS'19),于2019年4月13日至17日,在普罗维登斯召开,阿里云高级技术专家郑晓代表团队在会上发表了技术报告。

编程语言 android javascript 程序员 ECS web 开源大数据 e-mapreduce 脚本 云服务 前端开发

1月30日云栖精选夜读 | 《2018年云上挖矿态势分析报告》发布,非Web类应用安全风险需重点关注

近日,阿里云安全团队发布了《2018年云上挖矿分析报告》。该报告以阿里云2018年的攻防数据为基础,对恶意挖矿态势进行了分析,并为个人和企业提出了合理的安全防护建议。

python 安全 Apache 云安全 人工智能 web 集群 阿里中间件 spark 开源大数据 云市场 人机对话

【2018中国计算机大会】阿里云分布式存储架构师谈 自研分布式文件系统服务

10月27日下午,2018中国计算机大会上举办了主题“存储软硬件之国产化挑战与机遇”的技术论坛,一起探讨存储软硬件栈上的关键系统与技术的国产化发展道路。论坛上,阿里云分布式存储团队架构师黄硕针对存储软硬件国产化进行了《云上自研分布式文件系统服务的设计与实践》的报告。

大数据 架构 性能 高可用 Image 弹性计算 aliyun 开源大数据 分布式文件系统 高性能 分布式存储 存储 大数据分析

Apache Flink 干货合集打包好了,速来下载

作者:王绍翾(花名:大沙) 最近的一份市场调查报告显示,Apache Flink 是2018年开源大数据生态中发展“最快”的引擎,和2017年相比增长了125% 。为了让大家更为全面地了解Flink,我们制作了一本电子干货合集:《不仅仅是流计算:Apache Flink实践》,融合了Apache Flink在国内各大顶级互联网公司的大规模

大数据 架构 算法 Apache 阿里技术协会 人工智能 开源大数据 流计算 flink 实时计算

HBase+Spark技术双周刊第一期

HBase技术双周刊第1期来袭!HBase多模式、HBase内核及能力以及Spark介绍及Spark多数据源分析等精彩直播,HBase 在人工智能场景的使用、HBase2.0重新定义小对象实时存取精彩技术分享!

大数据 架构 hbase 人工智能 spark aliyun 开源大数据 对象存储 索引 离线分析 自然语言处理 存储

HBase+Spark技术双周刊第1期

HBase技术双周刊第1期来袭!HBase多模式、HBase内核及能力以及Spark介绍及Spark多数据源分析等精彩直播,HBase 在人工智能场景的使用、HBase2.0重新定义小对象实时存取精彩技术分享!

大数据 架构 hbase 人工智能 spark 开源大数据 对象存储 索引 离线分析 自然语言处理 存储

超燃!Apache Flink 全球顶级盛会强势来袭

12月20日,北京国家会议中心。Flink Forward China 2018 强势来袭~

深度学习 大数据 引擎技术 性能 Apache 开源大数据 流计算 flink 实时计算

开源大数据周刊-第107期

1月14日,英特尔人工智能大会(AIDC 2018)在北京国贸酒店举行。这是英特尔第三次在中国举行人工智能大会,也是第一次专门面向开发者和技术社区。大会上,英特尔发布了Neural Compute Stick 2(神经计算棒二代),英特尔还展示了如何以底层计算能力赋能百度、腾讯、阿里、微软等合作伙伴,共同推进AI与物联网发展。

云栖社区 深度学习 分布式 安全 hadoop Apache 人工智能 集群 mr spark 开源大数据 kafka big data Livy

阿里云开源大数据内核团队招聘人才

此次发布的岗位均是 Hadoop、Spark、HBase、flink等底层引擎内核的研究机会,机会难得,小伙伴们赶紧尝试下。工作地点杭州、北京。简历发给我:dragon.caol@alibaba-inc.com

linux 大数据 java 阿里云 hbase hadoop 源码 数据库 spark 搜索引擎 scala 开源大数据 招聘 Elassearch

ROLAP与大数据

大数据相关的场景比较多,常见的有:ETL(数据提取、转换、加载)、实时流式(监控报警、风控等)、机器学习(推荐引擎、用户画像等)、非结构化分析(视频、图片、语音、文本等)、海量大数据在线存储(HBase)、搜索及我们本文讲的OLAP。 其中OLAP(在线联机分析)在很多企业占住分析类的大部分。

大数据 hbase hdfs hadoop HTTPS SQL 数据仓库 spark 开源大数据 OLAP MPP Hive 存储 presto

13
GO