你不知道的六大Apache大数据项目新星

简介:

世界各地无数的组织,他们使用的数据现在日益庞大而复杂,使用传统的数据处理程序已无法再进行优化分析及获得洞察。而这正是的新一代的大数据应用程序要解决的问题。近期Apache软件基金会(ASF)又将一批有趣的开源大数据项目毕业为的Apache顶级项目。这意味着,这些项目将能够得到积极的发展和社区的大力支持。

大多数人都听过的Apache Spark,一个针对Streaming, SQL,机器学习和图形处理的内置模块的大数据处理架构。 IBM和其他公司正在投入数十亿美金开发资金到Spark项目,NASA和SETI Institute正在利用Spark的机器学习能力,合作分析TB数量级的外太空无线信号数据,寻找外星智能生命存在的形式。

然而,其他几个最近被Apache擢升为顶级的大数据项目也值得您额外关注。事实上,他们中的一些所构建和发展的生态系统,很可能将对Spark 发起挑战。结合本周举行的“ApacheCon北美峰会”(ApacheCon North America conference)和“Apache大数据峰会”(Apache: Big Data events),本文将归纳那些你应该知道的Apache的大数据项目。

下面是六个正在冉冉兴起的项目:

Kylin

Apache近日宣布其Kylin项目,一个始于eBay的开源大数据项目在eBay已经毕业为顶级项目。Kylin是一个开源的分布式分析引擎,旨在提供在Apache Hadoop之上SQL接口的多维分析引擎(OLAP),可支持超大数据集。它已广泛在eBay和其他一些组织中被采用。

“Apache Kylin的孵化之旅已经证明Apache软件基金会(ASF)开源治理的价值,以及围绕项目建设开源社区和生态系统的强大力量。”Apache Kylin副总裁Luke Han(韩卿)说: “我们的开源社区是世界上最大的本土开发者参与的社区,完全依照The Apache Way的社区运作方式。”

作为一个领先的基于Hadoop的OLAP解决方案,Apache Kylin填补了大数据与人使用之间的空白,他补充说道:“使分析人员,最终用户,开发者和数据爱好者能够在大规模数据集上进行亚秒级延迟的交互式分析。基于这些能力,Apache Kylin将商业智能(BI)带回Apache Hadoop以释放出大数据的价值。”

Lens

Apache近日宣布,Apache Lens,一个开源的大数据和分析工具,也已经从Apache孵化器毕业成为一个顶级项目(TLP)。根据公告:“Apache Lens是一个统一的分析平台,以统一视图形式为分析查询提供了优化的执行环境。Apache Lens旨在通过提供一个跨多个数据存储的单一视图来横向打通数据分析中遇到的异构单元。”

“通过在数据之上提供一个在线的分析处理(OLAP)模型,Lens无缝地集成Hadoop和传统数据仓库,提供统一的外部接口。它同时提供系统中查询历史、统计和查询的生命周期管理。”

“在ASF中孵化Apache Lens是一段神奇的经历” Apache Lens的副总裁Amareshwari Sriramadasu说:“Apache Lens从最终用户角度出发,为大数据分析解决了一个难题,它使得业务用户、分析师、开发者和其他用户,可以轻松的进行复杂的数据分析,而不需要了解底层的数据架构。”

Ignite

ASF还宣布Apache Ingite成为了一个顶级项目,一个通过开源方式建立的内存数据网络。Apache Ignite是一个高性能的整合的分布式的内存数据网络,实现在大规模数组上进行实时的计算和交互。Apache社区成员认为“可能比传统的硬盘或闪存技术要快几个数量级。它的设计使现有的以及各种新的应用可以轻松的部署在一个价格适宜的行业标准的大规模并行架构的硬件上。”

Brooklyn

ASF宣布Apache Brooklyn已成为一个TLP(顶级项目)。“这标志着该项目的社区和产品在ASF优异的流程和原则下治理有方。”Brooklyn是用于整合跨多个数据中心的应用程序的蓝图和管理平台,并适用于各种云端软件。

Brooklyn 宣称:“随着现代应用程序正在由更多个部件组成,微服务架构又逐渐兴起,部署以及已部署应用的演化越来越成为一个难题。Apache Brooklyn的蓝图提供了一个清晰简洁的方式,在部署到公共云或私有基础设施之前,来规范应用,及它的组件、配置和组件之间的关联性。这种建立在自主计算理论的基础上的策略管理,会不断地评估运行应用程序,修改以保持它的运行健康和指标优化,例如成本和响应能力。”

Brooklyn已经在一些知名企业中应用。云服务商Canopy和Virtustream已在Brooklyn上提供产品。IBM也已经大规模的使用Brooklyn,以将大量工作从AWS迁移到IBM Softlayer之上。

Apex

今年4月,Apache软件基金会将Apex项目提升至顶级项目。它被称为“应用在Apache Hadoop生态系统的大规模,高吞吐量,低延时,能容错的,统一的大数据流和批量处理平台。” Apex与Apache Hadoop资源管理平台YARN,一起作用于Hadoop工作集群。

Tajo

最后,Apache Tajo,一个领先的Apache Hadoop之上的开源数据仓库系统,成为另一个你需要了解的大数据项目。Apache宣称Tajo提供了针对Hadoop、第三方数据库以及商用BI工具的快速抓取能力。

显然,尽管Apache Spark吸引了大量的眼球,但它不是唯一需要你关注的来自Apache的大数据工具。今年接下去,Apache也许会将更多引人注目的大数据项目升级为顶级项目,这些项目必将由此获得更好的开发资源和更多的受益。


本文作者:佚名

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
159 0
|
3月前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
|
1月前
|
消息中间件 API Apache
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
本文整理自阿里云开源大数据平台徐榜江 (雪尽),关于阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会。
1405 1
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
|
1月前
|
分布式计算 大数据 Apache
大数据技术变革正当时,Apache Hudi了解下?
大数据技术变革正当时,Apache Hudi了解下?
25 0
|
1月前
|
存储 数据处理 Apache
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
72 0
|
2月前
|
SQL 并行计算 大数据
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
关于Flink服务的搭建与部署,由于其涉及诸多实战操作而理论部分相对较少,小编打算采用一个独立的版本和环境来进行详尽的实战讲解。考虑到文字描述可能无法充分展现操作的细节和流程,我们决定以视频的形式进行分析和介绍。因此,在本文中,我们将暂时不涉及具体的搭建和部署步骤。
496 3
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
|
3月前
|
SQL 关系型数据库 Apache
Apache Doris 整合 FLINK CDC 、Paimon 构建实时湖仓一体的联邦查询入门
Apache Doris 整合 FLINK CDC 、Paimon 构建实时湖仓一体的联邦查询入门
664 1
|
3月前
|
安全 网络安全 Apache
Windows下Apache部署多个php项目
在 Windows 系统下,使用 Apache 服务器发布多个 PHP 项目是一项常见的任务。本文将介绍如何在 Windows 操作系统下使用 Apache 发布多个 PHP 项目。在 Windows 操作系统下使用 Apache 发布多个 PHP 项目可能有一些挑战,但是只要您按照本文的步骤进行操作,您就可以成功地完成这项任务。希望本文能够对您有所帮助。
59 0
|
2月前
|
消息中间件 Kafka Apache
Apache Flink 是一个开源的分布式流处理框架
Apache Flink 是一个开源的分布式流处理框架
482 5
|
1月前
|
SQL Java API
官宣|Apache Flink 1.19 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.19.0。
1336 1
官宣|Apache Flink 1.19 发布公告

推荐镜像

更多