Cloudera正在重建机器学习方法

简介: 作者:Derrick Harris 翻译:岳辰       校对: 陈洁(转载请保留)   摘要:Cloudera目前正在进行一个名叫Oryx的开源项目,旨在将机器学习的方法代入Hadoop,而这个早些时候Apache Mahout做过类似的尝试都以失败告终。
0.jpg

作者:Derrick Harris
翻译:岳辰       校对: 陈洁(转载请保留)

 

摘要:Cloudera目前正在进行一个名叫Oryx的开源项目,旨在将机器学习的方法代入Hadoop,而这个早些时候Apache Mahout做过类似的尝试都以失败告终。

 

当Hadoop软件的卖方Cloudera在去年收购一家总部在伦敦的公司Myrrix时,他们并没有大肆宣传。他们也没有将之后公司在机器学习技术方面的成就带入公众的视线里。而公司的技术以及她的创始人,Sean Owen,却很可能成为一笔非常可观的资产。


在公司里头衔为数据科学师的Owen,目前正致力于开发一个名叫Oryx的开源机器学习项目。(Oryx原意为一种非洲羚羊,而Cloudera另一款产品Impala原意也是一种非洲羚羊。)Oryx项目的目标是能帮助Hadoop用户建立机器学习模型,这样用户就能通过利用这些模型实时查询并输出结果,比如过滤垃圾邮件或者向用户推荐有用的信息等。最好Oryx还能支持边读数据边自我更新的模型。
Owen将这称之为Hadoop传统的探索性数据分析与运算分析之间的差异。他说:“旦我能对我们网站上面的诈骗问题进行建模,我就一定能做出什么来。我们不仅能在Hadoop进行大数据建模,还可以大规模应用这些模型。


作为在Hadoop上建立机器学习模型的传统途径的Apache Mahout,被Owen称为“已走到穷途末路”。它目前处在仅能进行批量处理的第一代MapReduce的瓶颈,这就需要用户进行大量的操作同时也需要合适的工作系统。Owen说:“Myrrix其实就是我希望Mahout所成为的样子。”他补充道,“如果当初Mahout能做得很好的话,他们就不会在这寻求Myrrix了。其实Oryx中90%的代码都来自于Myrrix,剩下的才是由Cloudera完成的。”

 

一个既开源又简易的推荐系统,谁想试试?
与建立一整套机器学习算法库不同,Owen真正想做的只是四个核心问题:回归,分类,聚类以及协同筛选(也就是推荐系统)。Owen说上述四个问题中当下最热门的当属最后一个协同筛选的问题,于是他与一些Cloudera的一些顾客一起在使用Oryx写推荐系统。事实上,80%的Oryx使用者都在试图建立推荐系统。


将Oryx变成一个建立推荐系统的标准化工具会使得这个项目变得非常热门。尽管推荐系统对于一些热门网站如Netflix以及Amazon等都已是家常便饭,但是建立推荐系统标准化的开源工具缺少的可怜。


虽说这不是一场竞赛,但是其他的公司目前也在试图将推荐系统标准化。举例来说,云计算的新兴公司Mortar Data目前正与15家其他拥有顶级数据分析师的公司联手建立标准化推荐系统。这个项目于去年启动,它希望通过改善开源推荐系统的框架来带来更好的实用性。而其他一些公司如Expert Labs虽不打算将推荐系统开源化,但也试图通过人工智能API来搭建自动推荐系统。

 

仍只是一个实验项目,还非产品
Owen认为,所有的Cloudera用户(以及大多数Hadoop用户)最终都会想要使用操作性强的机器学习系统,并不仅仅限于系统给予推荐。而Oryx就能成为一款帮助大家实现这个愿望的工具。不过他也说道:“现阶段,这仍还是实验项目阶段。”


举个例子来说,目前Owen还在Apache Spark项目上花大量时间,因为他想通过重写Oryx来使得Spark成为首要的处理框架而非MapReduce。“其实如果从机器学习的角度看,Spark绝对是更有趣,”他说道:“所以我宁愿把精力多放在Spark上。”


Owen 并不是一个人在战斗。就像我们刚才说的,Spark正在成为下一代大数据应用的一个越来越热的的选择。Cloudera和Hortonworks也都把Spark当作Hadoop未来的一个重要组成部分。Cloudera的首席执行官Tom Reilly将会在三月份和其他很多大数据公司的首席执行官,数据分析师以及首席信息官们一起,在结构数据会议上探讨Hadoop平台的未来(包括Spark在其中的作用), 以及机器学习在商业和社会学上的实际应用。


不过,虽说前景良好,Owen并不认为Oryx能很快出现在Cloudera,Hadoop的生产线上。“顾客想要的是良好的建议,服务以及培训,这都需要把Oryx变成一款软件,”他说,而现在:“我们离着目标还很远。”


“就目前对大多数Hadoop的消费者而言,说拥抱数据科学还为时尚早,”他补充道:“更不用说那些操作性强的即时机器学习方法了。”


原文发布时间为:2014-03-08


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
数据采集 机器学习/深度学习 存储
【机器学习】数据清洗——基于Numpy库的方法删除重复点
【机器学习】数据清洗——基于Numpy库的方法删除重复点
71 1
|
1月前
|
数据采集 机器学习/深度学习 Python
【机器学习】数据清洗——基于Pandas库的方法删除重复点
【机器学习】数据清洗——基于Pandas库的方法删除重复点
45 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据分析的技术和方法:从深度学习到机器学习
大数据时代的到来,让数据分析成为了企业和组织中不可或缺的一环。如何高效地处理庞大的数据集并且从中发现潜在的价值是每个数据分析师都需要掌握的技能。本文将介绍大数据分析的技术和方法,包括深度学习、机器学习、数据挖掘等方面的应用,以及如何通过这些技术和方法来解决实际问题。
47 2
|
1月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
26 1
|
4月前
|
机器学习/深度学习 算法 Python
【Python机器学习】神经网络中常用激活函数、损失函数、优化方法(图文解释 附源码)
【Python机器学习】神经网络中常用激活函数、损失函数、优化方法(图文解释 附源码)
44 0
|
4月前
|
机器学习/深度学习 Python
【Python机器学习】全连接层与非线性回归、防止过拟合方法的讲解及实战( 附源码)
【Python机器学习】全连接层与非线性回归、防止过拟合方法的讲解及实战( 附源码)
69 0
|
4月前
|
机器学习/深度学习 数据采集 算法
【Python机器学习】过拟合及其抑制方法讲解及实战(图文解释 附源码)
【Python机器学习】过拟合及其抑制方法讲解及实战(图文解释 附源码)
46 0
【Python机器学习】过拟合及其抑制方法讲解及实战(图文解释 附源码)
|
1月前
|
机器学习/深度学习 数据采集 存储
使用机器学习算法进行文本分类的方法与实践
本文将介绍使用机器学习算法进行文本分类的方法与实践。通过分析文本特征、选择合适的机器学习算法和构建有效的训练模型,可以实现准确和高效的文本分类任务。我们还将探讨如何处理文本数据预处理、特征提取和模型评估等方面的关键问题,以帮助读者更好地应用机器学习技术解决文本分类挑战。
|
2月前
|
传感器
GEE——使用cart机器学习方法对Landsat影像条带修复以NDVI和NDWI为例(全代码)
GEE——使用cart机器学习方法对Landsat影像条带修复以NDVI和NDWI为例(全代码)
28 0
|
3月前
|
机器学习/深度学习 算法 异构计算
机器学习第4天:模型优化方法—梯度下降
机器学习第4天:模型优化方法—梯度下降
38 0