Cloudera正在重建机器学习方法-阿里云开发者社区

Cloudera正在重建机器学习方法

2017-04-03 1829

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 作者：Derrick Harris 翻译：岳辰校对: 陈洁(转载请保留) 摘要：Cloudera目前正在进行一个名叫Oryx的开源项目，旨在将机器学习的方法代入Hadoop，而这个早些时候Apache Mahout做过类似的尝试都以失败告终。

作者：Derrick Harris
翻译：岳辰校对: 陈洁(转载请保留)

摘要：Cloudera目前正在进行一个名叫Oryx的开源项目，旨在将机器学习的方法代入Hadoop，而这个早些时候Apache Mahout做过类似的尝试都以失败告终。

当Hadoop软件的卖方Cloudera在去年收购一家总部在伦敦的公司Myrrix时，他们并没有大肆宣传。他们也没有将之后公司在机器学习技术方面的成就带入公众的视线里。而公司的技术以及她的创始人，Sean Owen，却很可能成为一笔非常可观的资产。

在公司里头衔为数据科学师的Owen，目前正致力于开发一个名叫Oryx的开源机器学习项目。（Oryx原意为一种非洲羚羊，而Cloudera另一款产品Impala原意也是一种非洲羚羊。）Oryx项目的目标是能帮助Hadoop用户建立机器学习模型，这样用户就能通过利用这些模型实时查询并输出结果，比如过滤垃圾邮件或者向用户推荐有用的信息等。最好Oryx还能支持边读数据边自我更新的模型。
Owen将这称之为Hadoop传统的探索性数据分析与运算分析之间的差异。他说：“一旦我能对我们网站上面的诈骗问题进行建模，我就一定能做出什么来。我们不仅能在Hadoop进行大数据建模，还可以大规模应用这些模型。”

作为在Hadoop上建立机器学习模型的传统途径的Apache Mahout，被Owen称为“已走到穷途末路”。它目前处在仅能进行批量处理的第一代MapReduce的瓶颈，这就需要用户进行大量的操作同时也需要合适的工作系统。Owen说：“Myrrix其实就是我希望Mahout所成为的样子。”他补充道，“如果当初Mahout能做得很好的话，他们就不会在这寻求Myrrix了。其实Oryx中90%的代码都来自于Myrrix，剩下的才是由Cloudera完成的。”

一个既开源又简易的推荐系统，谁想试试？
与建立一整套机器学习算法库不同，Owen真正想做的只是四个核心问题：回归，分类，聚类以及协同筛选（也就是推荐系统）。Owen说上述四个问题中当下最热门的当属最后一个协同筛选的问题，于是他与一些Cloudera的一些顾客一起在使用Oryx写推荐系统。事实上，80%的Oryx使用者都在试图建立推荐系统。

将Oryx变成一个建立推荐系统的标准化工具会使得这个项目变得非常热门。尽管推荐系统对于一些热门网站如Netflix以及Amazon等都已是家常便饭，但是建立推荐系统标准化的开源工具缺少的可怜。

虽说这不是一场竞赛，但是其他的公司目前也在试图将推荐系统标准化。举例来说，云计算的新兴公司Mortar Data目前正与15家其他拥有顶级数据分析师的公司联手建立标准化推荐系统。这个项目于去年启动，它希望通过改善开源推荐系统的框架来带来更好的实用性。而其他一些公司如Expert Labs虽不打算将推荐系统开源化，但也试图通过人工智能API来搭建自动推荐系统。

仍只是一个实验项目，还非产品
Owen认为，所有的Cloudera用户（以及大多数Hadoop用户）最终都会想要使用操作性强的机器学习系统，并不仅仅限于系统给予推荐。而Oryx就能成为一款帮助大家实现这个愿望的工具。不过他也说道：“现阶段，这仍还是实验项目阶段。”

举个例子来说，目前Owen还在Apache Spark项目上花大量时间，因为他想通过重写Oryx来使得Spark成为首要的处理框架而非MapReduce。“其实如果从机器学习的角度看，Spark绝对是更有趣，”他说道：“所以我宁愿把精力多放在Spark上。”

Owen 并不是一个人在战斗。就像我们刚才说的，Spark正在成为下一代大数据应用的一个越来越热的的选择。Cloudera和Hortonworks也都把Spark当作Hadoop未来的一个重要组成部分。Cloudera的首席执行官Tom Reilly将会在三月份和其他很多大数据公司的首席执行官，数据分析师以及首席信息官们一起，在结构数据会议上探讨Hadoop平台的未来（包括Spark在其中的作用），以及机器学习在商业和社会学上的实际应用。

不过，虽说前景良好，Owen并不认为Oryx能很快出现在Cloudera，Hadoop的生产线上。“顾客想要的是良好的建议，服务以及培训，这都需要把Oryx变成一款软件，”他说，而现在：“我们离着目标还很远。”

“就目前对大多数Hadoop的消费者而言，说拥抱数据科学还为时尚早，”他补充道：“更不用说那些操作性强的即时机器学习方法了。”

原文发布时间为：2014-03-08

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

Cloudera正在重建机器学习方法

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景