AI平台-AutoML-2019年几个靠谱的AutoML框架

本文涉及的产品
文件存储 NAS,50GB 3个月
简介: AutoML,也称自动机器学习,是指将机器学习应用于现实问题的端到端过程自动化的过程。

1. 什么是AutoML

1.1简介

AutoML,也称自动机器学习,是指将机器学习应用于现实问题的端到端过程自动化的过程。
典型的机器学习模型包括以下四个过程:
image
从摄取数据到预处理、优化,然后预测结果,每个步骤都由人来控制和执行。AutoML 主要关注两个主要方面:数据采集 / 收集和预测。中间发生的所有其他步骤都可以轻松实现自动化,同时提供经过优化并准备好进行预测的模型。
从表现形式来看,AutoML目前主要分三类:1. 自动化调参(比较基础)2. 对于非深度学习领域应用的AutoML,比如AutoSKlearn等,主要体现在从数据预处理,自动化特征分析,自动化特征检验,自动化特征选择,自动化模型选择等。3. 应用于深度学习/神经网络的AutoML,主要有NAS,ENAS等,对于框架有AutoKeras等。

1.2 为什么需要 AutoML

从应用角度,在过去几年中,对机器学习系统的需求飙升。这是因为 ML 如今在广泛的应用中取得了成功。然而,即使有这种明确的迹象表明机器学习可以为某些企业提供支持,但很多公司仍在为部署 ML 模型而艰难地努力着。
从理论角度,AI致力于替代人的一部分工作,但是进一步深究的话,AI算法的设计过程中的很多工作,比如调参,也是可以通过算法实现的,或者说可以在调参等过程中,通过贝叶斯、NAS、进化编程等算法,实现使用更多的算力来替代人力。
首先,他们需要建立一支由经验丰富的数据科学家组成的团队,这些科学家都要拿丰厚的薪水。其次,即使你拥有一支优秀的团队,往往需要更多的经验来决定哪种模式 最适合你的问题,而不是知识。机器学习在各种应用中的成功,导致了对机器学习系统不断增长的需求,这些系统可以由非专家使用¹。AutoML倾向于尽可能多地自动化 ML 管道中步骤,在只需最少人力的情况下仍保持模型的性能。

AutoML 的优点可归纳为三大要点:

  • 通过自动执行的重复性任务来提高工作效率。这使得数据科学家能够更多地关注问题而不是模型。
  • 自动化 ML 管道还有助于避免可能因手动引入的错误。
  • AutoML 是向机器学习民主化迈出的一步,它使所有人都能使用 ML 的功能。

2. 常见的Auto框架简介(2019年5月)

AutoML已经有很多年历史,但从去年开始,陆续涌出好多新的Auto框架,这几只是选择几个常见的做简介,后续的文章中会介绍他们的使用详情和性能等。

2.1 AutoSKlearn

本着入门一般选SKLearn的原则,先聊聊AutoSKLearn
Auto-Sklearn 是一个基于 Scikit-learn 构建的自动化机器学习软件包。Auto-Sklearn 让机器学习的用户从算法选择和超参数调整中解放出来。它包括特征工程方法,如独热编码(One-Hot)、数字特征标准化、PCA 等。该模型使用 sklearn 估计器处理分类和回归问题。
image
Auto-sklearn 创建了一个管道,并使用贝叶斯搜索对其进行优化。在 ML 框架的贝叶斯超参数优化中,添加了两个组件:元学习 用于初始化贝叶斯优化器,从优化过程中评估配置的自动集合构造。
Auto-sklearn 在中小型数据集上表现良好,但它还无法在大型数据集上产生性能最先进的现代深度学习系统。
演示
以下示例显示如何使用 Auto-Sklearn 拟合简单回归模型。

 import sklearn.model_selection
import sklearn.datasets
import sklearn.metrics

import autosklearn.regression

def main():
X, y = sklearn.datasets.load_boston(return_X_y=True)
feature_types = (['numerical'] * 3) + ['categorical'] + (['numerical'] * 9)
X_train, X_test, y_train, y_test = \
sklearn.model_selection.train_test_split(X, y, random_state=1)

automl = autosklearn.regression.AutoSklearnRegressor(
time_left_for_this_task=120,
per_run_time_limit=30,
tmp_folder='/tmp/autosklearn_regression_example_tmp',
output_folder='/tmp/autosklearn_regression_example_out',
)
automl.fit(X_train, y_train, dataset_name='boston',
feat_type=feature_types)

print(automl.show_models())
predictions = automl.predict(X_test)
print("R2 score:", sklearn.metrics.r2_score(y_test, predictions))


if __name__ == '__main__':
main()

资源链接:
Github:https://automl.github.io/autosklearn

2.1 MLBox

image
MLBox 是一个功能强大的自动化机器学习 Python 库。根据官方文档,该库提供以下功能:

  • 快速读取,分布式数据预处理 / 清洗 / 格式化;
  • 高可靠性的特征选择,泄漏检测,准确的 超参数优化;
  • 用于分类和回归的最先进的预测模型(深度学习,堆叠,LightGBM,......);
  • 具有模型解释的预测;

MLBox已经在 Kaggle 上进行了测试并且表现良好。(参见 Kaggle “Two Sigma Connect:Rental ListingInquiries”| Rank:85/2488)。

  • 管道

MLBox 架构
MLBox的主程序包包含 3 个子包,用于自动执行以下任务:

  • 预处理:用于读取和预处理数据。
  • 优化:用于测试和交叉验证模型。
  • 预测:用于预测。

2.3 TPOT

TPOT是基于树的管道优化工具,利用遗传算法来优化机器学习管道。TPOT 扩展了 Scikit-learn 框架,使用了自己的回归器和分类器方法。TPOT 的工作原理是探索数千条可能的管道,并为数据找到最好的一个。
image
资源链接:
Github:https://epistasislab.github.io/tpot/

2.4 H2O AutoML

H2O 是 H2O.ai 公司的完全开源的分布式内存机器学习平台。H2O同时支持 R 和 Python,支持最广泛使用的统计和机器学习算法,包括梯度提升(Gradient Boosting)机器、广义线性模型、深度学习模型等。
H2O 包括一个自动机器学习模块,使用自己的算法来构建管道。它对特征工程方法和模型超参数采用了穷举搜索,优化了管道。
H2O 自动化了一些最复杂的数据科学和机器学习工作,例如特征工程、模型验证、模型调整、模型选择 和 模型部署。除此之外,它还提供了自动可视化以及机器学习的解释能力(MLI)。
资料地址:https://h2o-release.s3.amazonaws.com/h2o/master/3888/docs-website/h2odocs/downloading.html#downloading-installing-h2o

2.5AutoKeras

Auto-Keras 是 DATA Lab 构建的一个用于自动化机器学习的开源软件库。基于 Keras 深度学习框架,Auto-Keras 提供了自动搜索深度学习模型的体系结构和超参数的功能。
API 的设计遵循 Scikit-Learn API 的经典设计,因此使用起来非常简单。当前版本提供了在深度学习过程中自动搜索超参数的功能。
Auto-Keras 的趋势是通过使用自动神经架构搜索(NAS)算法简化 ML 过程。NAS 基本上用一组自动调整模型的算法,替代了深度学习工程师 / 从业者。
资源链接:https://github.com/keras-team/autokeras
2.6 TransmogrifAI
下面介绍个大杀器2018年Salesforce出品的TransmogrifAI 。
该公司的旗舰 ML 平台名为爱因斯坦,也由 TransmogrifAI 驱动。TransmogrifAI是一个端到端的 AutoML 库,用于 Scala 编写的结构化数据,运行在最新版的Apache Spark 之上,可自动完成特征分析,特征选择,特征校验,模型选择等流程。在以下场景中,TransmogrifAI 特别有用:

  • 快速训练高质量机器学习模型,只需极少的手动调节
  • 构建模块化、可重用、强类型的机器学习工作流

3.关于Auto的思考

从质上讲,AutoML 的目的是自动化重复的任务,如管道创建和超参数调整,以便数据科学家在实际中可以将更多的时间花在手头的业务问题上。AutoML 还在于让所有人都能使用这项技术,而不仅仅少数人才能用。AutoML 和数据科学家可以联合起来加速 ML 的发展过程,从而实现机器学习的真正效率。
AutoML 是否成功取决于它的使用率和在这个领域所取得的进展。很明显,AutoML 是机器学习未来的一个重要组成部分。

相关实践学习
基于ECS和NAS搭建个人网盘
本场景主要介绍如何基于ECS和NAS快速搭建个人网盘。
阿里云文件存储 NAS 使用教程
阿里云文件存储(Network Attached Storage,简称NAS)是面向阿里云ECS实例、HPC和Docker的文件存储服务,提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。 产品详情:https://www.aliyun.com/product/nas
目录
相关文章
|
2月前
|
人工智能 JSON 数据格式
GEE、PIE和AI Earth平台进行案例评测:NDVI计算,结果差异蛮大
GEE、PIE和AI Earth平台进行案例评测:NDVI计算,结果差异蛮大
53 0
|
2月前
|
人工智能 自然语言处理 安全
国产算力平台的磨砺与革新:助力国内AI走向更高更远
近几年技术圈由人工智能的快速发展,引起来了变革和创新,虽然国外的算力一直是走在最前沿,但是国产算力平台在推动我国AI产业中发挥着重要作用,扮演着重要角色,但要助力国内AI走得更高更远,国产算力平台还需要经历磨砺和革新。那么本文就来分享和讨论一下国产算力平台所需的磨砺和革新,以及这样的平台在国产算力土壤之上能孕育出的AI创新之花。
101 1
国产算力平台的磨砺与革新:助力国内AI走向更高更远
|
3月前
|
缓存 中间件 API
【利用AI让知识体系化】入门Egg框架(含实战)(三)
【利用AI让知识体系化】入门Egg框架(含实战)
|
3月前
|
存储 人工智能 前端开发
【利用AI让知识体系化】入门Egg框架(含实战)(二)
【利用AI让知识体系化】入门Egg框架(含实战)
|
1月前
|
人工智能 JSON 前端开发
【Spring boot实战】Springboot+对话ai模型整体框架+高并发线程机制处理优化+提示词工程效果展示(按照框架自己修改可对接市面上百分之99的模型)
【Spring boot实战】Springboot+对话ai模型整体框架+高并发线程机制处理优化+提示词工程效果展示(按照框架自己修改可对接市面上百分之99的模型)
|
1月前
|
人工智能 搜索推荐 机器人
Rasa: 帮助企业更快搭建“AI对话助手”的低代码平台
【2月更文挑战第24天】Rasa: 帮助企业更快搭建“AI对话助手”的低代码平台
28 2
Rasa: 帮助企业更快搭建“AI对话助手”的低代码平台
|
2月前
|
人工智能 自然语言处理 搜索推荐
魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
【2月更文挑战第9天】魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
147 3
|
21小时前
|
人工智能 决策智能 C++
【AI Agent系列】【阿里AgentScope框架】5. Pipeline模块的组合使用及Pipeline模块总结
【AI Agent系列】【阿里AgentScope框架】5. Pipeline模块的组合使用及Pipeline模块总结
9 1
|
23小时前
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
6 0
|
1月前
|
人工智能 自然语言处理 安全
推荐一款 AI 资源集合平台,助你通往AGI之路。
推荐一款 AI 资源集合平台,助你通往AGI之路。