AI产品开发指南：5大核心环节搞定机器学习工作流

2018-01-01 823

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文来自AI新媒体量子位（QbitAI）

6d6e39fba24b4cae8868b104d83c8911dabc509b

Python写得像英语一样6，神经网络、决策树烂熟于心，但如果不能动手将这些算法部署到实际系统中，这一切还有什么意义？

于是，国外的问答网站Quora上就有了这个问题：

怎样开发出一个AI系统或者产品？

量子位觉得，有一个来自Sean McClure的回答很不错。Sean是美国一家医疗公司的数据科学家，他从机器学习工作流的五个核心环节讲起，系统地回答了这个问题。

以下内容译自他的回答。

要构建一个AI系统或产品，你要处理好5个核心环节，我们通常称之为“机器学习工作流”。这些步骤分别是：

1. 数据收集与分析

2. 数据准备

3. 模型构建

4. 模型验证与测试

5. 模型部署

这是一个反复迭代的过程，每次循环都能改进我们构建的模型。

ed81d15deae8933a8b7ab24830a55e2d6fc7f1a9

你要创造的是一个产品，所以，应该把这些步骤视为一个将原始数据转换成预测输出的数据工作流。

0cda78bd5baa91d61d7b759af6da4e7a7288dd95

构建一个有用的产品，就意味着你不仅要写代码做出工作流的各个部分，还需要定义整个问题，并将专业知识融入到这个机器学习工作流的每个步骤中。

也就是说，在产品开发中，上述每个步骤不仅要符合产品设计的关注点，还要符合符合我们在开发中通常要关注的统计数据和最佳范例。

通过与用户的有效对话，你可以实现这一目标。举个例子：

用户：我需要知道，在工作场所发生事故的主要原因有哪些。
工程师：为什么？
用户：因为影响赚钱啊，我们到现在也没能解决。
工程师：为什么不看一下所有的安全报告，然后算一下总和呢？
用户：因为实际上，我们有成千上万的报告，都是手动输入的，描述一样的事，用什么词的都有。我不能指望相关员工把所有报告通读一遍，来搞清楚到底是怎么回事，更不用说找到主要原因，或者预测何时何地会再发生这种事故了。
工程师：如果你能总结出主要事故，甚至发现可能的原因或是预测出危险位置，你会用这种新能力来干什么？
用户：我们里可以集中财力做专项训练，也可以将为高危情况设置提醒。

在上面对话中，我们工程师想要的就是最后一句，也就是用户想用这个产品来干什么。

当然，如果你只是想快速做个小产品，可能并不需要真的找个“用户”进行对话，上网查资料，并了解到更多在特定领域中的普遍挑战就可以了。关键是，当你深入理解问题和用户行为时，你就能确定这个产品需要支持哪些交互。

你可以试着先做个原型，里面包含前端和数据工作流。要做前端，你得会JavaScript，如果没有JavaScript，那机器学习就像是一个带刺的玫瑰，只能看，不能摸，很不实用。

你可以花几个小时，学学前端，然后自己用HTML+CSS+JavaScript凑合写个网站，也可以用一个你已经熟练掌握的编程框架，做一个可以和用户交互的应用。

为什么从前端开始呢？我希望你能这么做，因为这样能迫使你在你一步一步地完成数据工作流的过程中，牢记用户的需求。

接下来就要用到Python了，我们看看具体怎么做：

1. 数据收集与分析

在获得正确的数据后，生成一些图表，能启发我们该在下一步中如何准备数据。

可以查找一些与你当前所遇到问题相关的公开数据集。没找到相关的也很正常，这时你就需要改变方法，换个角度去思考你的问题。这样做，通常能找到比你原始计划更合适的方法。
精选公开数据集：https://github.com/caesar0301/awesome-public-datasets

分析你的数据，提前回答一些策略性的问题。以下是一些常用方法：

检查异常值；
寻找数值关系和点相关性；
评估缺失值的数量。

2. 数据准备

如果原始数据存在干扰，不能用来训练学习算法。这时，你就需要进行数据清理和数据准备，常用方法包括：

合并表格；
提取新特征；
处理上步中确定的缺失值和异常值等；
清洁数据，并根据情况进行标准化。

3. 模型构建

这是最快完成的一部分，你可以多尝试一些算法，谁也不知道哪个算法的效果最好。

大多数机器学习模型只需要几行代码就能实现。你可以：

根据当前的数据特性来选择一系列算法；
尝试不同超参数的效果或是运行自动参数调优。

4. 模型验证与测试

这包括两部分。

首先，你显然需要验证当前模型的输出是否满足实际要求。该如何验证模型取决于当前使用的机器学习方法，是有监督、无监督还是强化学习。在这个过程中，你要平衡好灵敏度和特异度，精确度和召回率，或是某种聚类有效性等指标间的关系。
其次，现有的统计数据不足以验证这个模型是否满足要求，你就要去验证下用户输出，比如说用你自己做个实验，看看你作为用户里能否靠产品的输出来进行操作，会不会想进行操作？