五个不容忽视的“非主流”大数据技术工具-阿里云开发者社区

五个不容忽视的“非主流”大数据技术工具

2017-08-01 1558

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

大数据的生态系统如今已经非常庞大，涌现大量主流数据处理框架如Hadoop、Spark、Flink、Google的Tensorflow以及其他不计其数的Apache开源项目(最受欢迎的十个开源大数据技术)。

今天我们要推荐的五个“非主流”开源大数据技术项目，在某些特定的应用场合，往往能助您出奇制胜。

一、Luigi

Luigi是Spotify开发的数据管线批处理工具，热度正在不断飙升。Luigi的定位不是取代底层数据处理工具如Hive或者Pig，而是在众多任务间创建工作流。Luigi原生支持Hadoop，这对于很多用户来说非常有吸引力。

近日创业公司Mortar就将Spotify开发的开源大数据工具Luigi搬上云端，在亚马逊云上提供复杂的，涉及大量工具和数据库的大数据流水线处理服务，不论是否使用Hadoop，用户都可以用Luigi管理复杂的大数据工作流。

二、Lumify

Lumify是一个开源大数据分析和可视化平台，开发者Altamira认为当前的大数据分析工具并不完善，因此开发了Lumify来聚合、管理和洞察数据，此外，Lumify还可以用来分析数据内部之间的关系，进行地理图形数据分析，并实时组织和协调数据。Lumify的官网由比较完整的文档和介绍视频，还提供了了一个在线应用示例。

三、Google 云平台Hadoop互操作工具

这个技术项目来自Google Cloud Platform的官方Github账号，描述如下：

为实现Hadoop相关开源软件、Google云平台之间互操作的代码库和工具集。如果你打算在Google云平台上运行基于HDFS数据的Map-Reduce任务，那么这些工具值得投资。

四、Presto

Presto是一个分布式的大数据SQL查询引擎，支持所有数据源格式，以及从GB到PB级别的数据规模。Presto主打的卖点是速度和可扩展性，如果你想提升SQL查询速度又不愿对数据源存储系统进行投资或改动，或者需要对存储在多个平台的数据源进行查询，Presto都是值得考虑的选择。Presto的官网由比较详细的资料，这里还有一个Teradata的五分钟视频介绍(youtube)，以及Facebook的Presto设置应用指南(youtube)。

五、Clusterize

来自Denis Lukov的这个项目是今天介绍的“非主流”中的非主流，与前面介绍的四个后端数据科学/工程工具不同，Clusterize是一个Javascript写成的前端开发小项目，目的是提高大数据集的浏览效率，降低延迟，这算得上是一个大数据工具吗?也许吧，至少对于很多开发者来说是如此。

本文作者：Cashcow

来源：51CTO

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

五个不容忽视的“非主流”大数据技术工具

热门文章

最新文章

相关课程

相关电子书

相关实验场景