AutoML 2.0:数据科学家过时了吗?

简介: 人工智能现在可以驱动所谓的要素工程(Feature Engineering),允许用户自动发现和创建数据科学处理功能。这种做法开启了一种全新的数据科学方法,似乎会威胁到数据科学家的作用。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

在过去几年里,AutoML快速增长。而且目前看来,经济衰退无可避免,人工智能(AI)和机器学习自动化开发的观念也必将越来越有吸引力。业界现在推出的各种新平台(https://dotdata.com)都具有更多的自动化功能。人工智能现在可以驱动所谓的要素工程(Feature Engineering),允许用户自动发现和创建数据科学处理功能。这种做法开启了一种全新的数据科学方法,似乎会威胁到数据科学家的作用。

那么,数据科学家需要关注这些发展吗?数据科学家在自动化过程中的作用是什么呢?鉴于这种新发现的自动化技术,企业又将如何发展呢?

li29YBwGOSCSY_600

传统的数据科学过程(图;dotData公司)

AutoML 2.0必将令数据科学更加自动化

第一代AutoML平台的重点主要放在自动化数据科学过程中的机器学习部分。但在传统的数据科学工作流程里,最冗长和最具挑战性的部分则是被称之为是要素工程的部分,要素工程是高度手动的一步,主要涉及到连接数据源及构建宽大的“要素表”,需包含丰富多样的“要素”。与此同时,这些要素还需要针对多种机器学习算法进行评估。

目前,要素工程面临的挑战是,只有用更高水平领域的专业知识才能“酝酿”新的要素,而且这一过程需要在评估、拒绝或选择要素时反复地做。但最近业界出现了新平台,这些新平台可以提供旨在解决这一挑战的附加功能及自动化功能。现在一些具有“自动要素工程”功能的平台可以从关系数据源以及无结构文件里自动创建要素表。这种能够在数据科学过程中“自动生成”要素的方法,可以说是个改变游戏规则的功能。

于是,突然之间,“公民”数据科学家开始成为组织开发ML和AI模型的有价值贡献者。一般来说,「公民数据科学家」指的是商业智能(BI)分析师、数据工程师和组织中其他具有深厚领域知识的、精通技术的成员。借助于机器学习,BI团队利用自动化要素工程可以在几天之内开发出复杂的预测分析算法,无需数据科学家帮忙就可以极大地提高生产力。

自动化数据科学:平民化

AutoML 2.0平台的主要好处之一是可以用于真正的数据科学平民化。

数据科学自动化可以加速发现要素和创建功能的过程,而且是自动的,如此一来,更多的用户群体就可以为数据科学过程做贡献。要素创建的自动化使得“公民”数据科学家能够创建极有用的、高度优化的用例。而且公民数据科学家通常具有高度的“专业领域知识”,因此他们基本无需数据科学团队的帮助就可以将重点放在对组织具有高价值的用例上。

开启公民数据科学家的另一个好处在于,企业无需担心招不到数据科学家而一样可以开拓数据科学的使用。2018年 LinkedIn的一项研究表明,美国的组织在雇用数据科学家方面遇到困难。鉴于此,能够发掘新的数据科学贡献者就显得尤为重要。

眼下,全球经济面临着诸多不确定性,在这种情况下能以最少的投资发掘出几类新的AI/ML开发人员,必将成为改变游戏规则的价值主张,在维持或增加竞争优势上意义重大。

自动化数据科学:生产力而非替代

但任何AutoML 2.0平台如果将定位的重点放在替换或更替数据科学家上就大错特错了。大多数数据科学家都将要素工程视为工作中的最大障碍之一。自动化可以帮助加快要素工程的流程,靠的就是自动化可以提供令人难以置信的生产率提升,这种提升若无自动化是不可能实现的。

对于数据科学家来说,利用AutoML 2.0通常可以极大地加快自己的工作,缩短的工作时间从几天到几个月不等。而且,数据科学家在AutoML 2.0平台上使用基于AI的要素工程还可以发现他们从未考虑过的要素。基于AI的要素工程可以自动构建、评估和开通要素,而且可以结合来自基于多列的数据(通常是跨越不同的表和源)。

此外,AutoML 2.0还具有自我发现要素的功能,数据科学家借此功能可以探索所谓的“未知的未知数”,这种“未知的未知数”属于那些数据科学家由于缺乏时间或缺乏领域专业知识而从未考虑过的要素。

AutoML 2.0:创建更高效、更具包容性的AI / ML程序

所以,AutoML 2.0平台并没有威胁到数据科学家的生计,反而有助于加速数据科学过程及令数据科学平民化。与此同时, AutoML 2.0也为数据科学家提高生产力提供了必要的加速和自动化手段,令数据科学家能够扩展工作规模并为业务带来更大的效益。AutoML 2.0平台具有推动数据科学平民化和加速数据科学流程的双重优势,也是其最重要的卖点,这种双重优势是现代组织扩展数据科学流程规模的关键。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-04-08
本文作者:Forbes
本文来自:“至顶网”,了解相关信息可以关注“至顶网

相关文章
|
8月前
|
机器学习/深度学习 人工智能 数据挖掘
机器学习会取代数据科学吗?
随着技术的不断发展和人工智能在我们日常生活中的使用,许多人担心失业。有些人甚至谈论数据科学正在消亡。许多人说机器学习正在取代数据科学,并指出数据科学是一个过度饱和的领域。随着 ChatGPT 等工具的大量使用及其在编码任务中的使用等等,我们正在质疑数据科学是否正在消亡。
56 0
|
11月前
|
机器学习/深度学习 SQL 数据采集
谁说chatGPT要取代数据分析师?
最近有不少小伙伴都问了我一个问题:数据分析师会不会被ChatGPT取代?忙着搞“大事情”的二哥先来给大家盘一盘ChatGPT与数据分析! 本文重点讨论:ChatGPT能帮助数据分析师做什么 下期预告:数据分析师如何使用ChatGPT“提效”
|
11月前
|
机器学习/深度学习
「机器学习」机器学习工程师的2020 路线图
「机器学习」机器学习工程师的2020 路线图
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习都能做些什么呢
回归问题通常用来预测一个值,其标签的值是连续的。例如,预测房价、未来的天气等任何连续性的走势、数值。比较常见的回归算法是线性回归(linear regression)算法以及深度学习中的神经网络等。 分类问题是将事物标记一个类别标签,结果为离散值,也就是类别中的一个选项,例如,判断一幅图片上的动物是一只猫还是一只狗。分类有二元分类和多元分类,每类的最终正确结果只有一个。分类是机器学习的经典应用领域,很多种机器学习算法都可以用于分类,包括最基础的逻辑回归算法、经典的决策树算法,以及深度学习中的神经网络等。还有从多元分类上衍生出来的多标签分类问题,典型应用如社交网站中上传照片时的自动标注人名功能,
103 0
|
机器学习/深度学习
机器学习几点总结
机器学习几点总结
|
机器学习/深度学习 人工智能 自然语言处理
一周AI最火论文 | 消除偏见,从机器学习系统开始,谷歌发布ML-fairness-gym
一周AI最火论文 | 消除偏见,从机器学习系统开始,谷歌发布ML-fairness-gym
208 0
|
机器学习/深度学习 数据采集 人工智能
告别 AI 模型黑盒:可解释机器学习研究报告
随着金融数据规模的日益增长与 AI 技术的发展,机器学习模型在金融银行业被广泛使用。高性能的机器学习模型虽然在预测能力上表现突出,但是因为模型过于复杂的结构而引发的黑盒问题,却不利于机器学习模型的大规模使用。无法解释的黑盒模型在使用过程中暴露出来的安全风险和不公正问题,使人们对黑盒模型的使用变得越来越谨慎。为了应对黑盒模型的不可解释的问题,科学家们提出了可解释机器学习的研究。可解释机器学习分为内在可解释模型的研究和模型的事后解析方法两大方向。
3437 1
告别 AI 模型黑盒:可解释机器学习研究报告
|
机器学习/深度学习 人工智能 算法
2018最有用的六个机器学习项目
用了这六个机器学习开源项目,你的项目一定进行的666!
2518 0
|
Web App开发 机器学习/深度学习 算法
想要成为数据科学家?知道这11种机器学习算法吗?
想要成为数据科学家?知道这十几种机器学习算法吗?赶快来了解一下吧,文中附各种算法的资源地址!
4293 0
|
机器学习/深度学习 算法 API
不该被忽视的五个机器学习项目
本文将介绍5个机器学习或机器学习相关的项目,你可能还没有听说过,但可能应该考虑重视一下了!
4702 0