俄罗斯最大搜索引擎Yandex开源了一款梯度提升机器学习库CatBoost-阿里云开发者社区

俄罗斯最大搜索引擎Yandex开源了一款梯度提升机器学习库CatBoost

2017-07-21 5787

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

简介： 俄罗斯搜索巨头Yandex宣布，将向开源社区提交一款梯度提升机器学习库CatBoost。它能够在数据稀疏的情况下“教”机器学习。特别是在没有像视频、文本、图像这类感官型数据的时候，CatBoost也能根据事务型数据或历史数据进行操作。

现在，人工智能正在为越来越多的计算功能提供支持，今天，俄罗斯搜索巨头Yandex宣布，将向开源社区提交一款梯度提升机器学习库CatBoost。它能够在数据稀疏的情况下“教”机器学习。特别是在没有像视频、文本、图像这类感官型数据的时候，CatBoost也能根据事务型数据或历史数据进行操作。

今天，CatBoost以两种方式进行了亮相。

首先，Yandex宣布，将在自有服务中使用这款新的框架替换原来的机器学习算法MatrixNet。MatrixNet一直被应用在公司的很多业务上，比如排名、天气预报、出租车和推荐业务。现在，业务正在逐步从MatrixNet切换到CatBoost上来，并将延续几个月。

其次，Yandex将免费提供CatBoost库，任何希望在自己的程序中使用梯度提升技术的人员都可以在Apache许可证下使用这个库。 Yandex机器智能研究主管Misha Bilenko在接受采访时表示：“CatBoost是Yandex多年研究的巅峰之作。我们自己一直在使用大量的开源机器学习工具，所以是时候向社会作出回馈了。” 他提到，Google在2015年开源的Tensorflow以及Linux的建立与发展是本次开源CatBoost的原动力。

Bilenko补充说到，暂时还没有计划将CatBoost商业化，或以任何专利的形式将其闭源。 “这和竞争对手无关，”他说，“我们很高兴有竞争对手使用它”

长期以来，随着Yandex的不断发展，它一直在寻求提升俄语世界之外的国际地位。本次开源举动不仅仅是Yandex对开源社区的承诺，而且也展示了Yandex希望成为大型科技公司与开发者社区发展中心的决心。

就像Google持续地扩展和更新Tensorflow一样，今天的CatBoost版本是其第一个版本，以后将持续更新迭代。目前，这个库主要有三个特点：

“减少过度拟合”：这可以帮助你在训练计划中取得更好的成果。它基于一种构建模型的专有算法，这种算法与标准的梯度提升方案不同。

“类别特征支持”：这将改善你的训练结果，同时允许你使用非数字因素，“而不必预先处理数据，或花费时间和精力将其转化为数字。”

“API接口支持”：可以通过命令行或者基于Python或R的API接口来使用CatBoost，包括公式分析和训练可视化工具。

虽然目前有大量的库可以利用梯度提升或其他解决方案来训练机器学习系统，但Bilenko认为，CatBoost相较其他大型公司使用的框架（如Yandex）的最大优点是测试精准度高。

“有很多机器学习库的代码质量比较差，需要做大量的调优工作，”他说，“而CatBoost只需少量调试，就可以实现良好的性能。这是一个关键性的区别。”

附CatBoost开源代码地址： https://catboost.yandex/

文章原标题《Yandex open sources CatBoost, a gradient boosting machine learning library》，作者：Ingrid Lunden，译者：夏天，审校：主题曲。

文章为简译，更为详细的内容，请查看原文

俄罗斯最大搜索引擎Yandex开源了一款梯度提升机器学习库CatBoost

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

俄罗斯最大搜索引擎Yandex开源了一款梯度提升机器学习库CatBoost

热门文章

最新文章

相关课程

相关电子书

相关实验场景