关于机器学习你必须了解的十个真相-阿里云开发者社区

关于机器学习你必须了解的十个真相

2017-09-11 6287

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 作者从非专业人士的角度对人工智能常见的误解进行了解释说明。

作为一个经常向非专业人士解释机器学习的人，我整理了以下十点内容作为对机器学习的一些解释说明。

机器学习意味着从数据中学习；而AI则是一个时髦的词。机器学习并不像天花乱坠的宣传那样：通过向适当的学习算法提供适当的训练数据，你可以解决无数的难题。把它称之为AI吧，如果这有助于销售你的AI系统的话。但你要知道，AI只是一个时髦的词，这只代表了人们对它的期望而已。
机器学习主要涉及到数据和算法，但最主要的还是数据。机器学习算法特别是深度学习的进步，有很多令人兴奋的地方。但数据是使机器学习成为可能的关键因素。机器学习可以没有复杂的算法，但不能没有好的数据。
除非你有大量的数据，否则你应该坚持使用简单的模型。机器学习根据数据中的模式来训练模型，探索由参数定义的可能模型的空间。如果参数空间太大，就会对训练数据过度拟合，并训练出一个不能使自己一般化的模型。如果要对此做详细解释的话，需要进行更多的数学计算，而你应该把这一点当作为一个准则，让你的模型尽可能得简单。
机器学习的质量与训练所用数据的质量强相关。俗话说“你往计算机输入一堆垃圾，输出的一定也是一堆垃圾数据”，虽然这句话的出现早于机器学习，但这恰恰是机器学习存在的关键限制。机器学习只能发现训练数据中存在的模式。对于监督机器学习任务来说（例如分类），你需要一个健壮的、正确标记的、丰富的训练数据集。
机器学习只有在训练数据具有代表性的前提下才会起作用。正如基金招股说明书警告的那样“过去的表现不能保证未来的结果”。机器学习也应该发一个类似的警告申明：它仅能基于与训练数据相同分布的数据才能工作。因此，需警惕训练数据和生产数据之间的偏差，并经常性地重复训练模型，这样才能保证其不会过时。
机器学习大部分的工作是数据转换。在机器学习技术天花乱坠的宣传下，你可能会认为机器学习所做的主要是选择和调整算法。但现实却是平淡无奇的：你大部分的时间和精力都将花在数据清理和特征工程上，也就是将原始特征转换为能更好地代表数据信号的特征。
深度学习是一场革命性的进步，但并不是灵丹妙药。由于机器学习在很多领域都得到了应用与发展，因此深度学习也被宣传得天花乱坠。此外，深度学习促使一些传统上通过特征工程进行的工作变得自动化，特别是对于图像和视频数据。但深度学习并不是灵丹妙药。没有现成的可以让你使用，你仍然需要投入大量的精力去清理和转换数据。
机器学习系统很容易受到操作员错误的影响。向NRA道歉，“机器学习算法不会杀人，是人在杀人”。当机器学习系统出现故障时，很少是因为机器学习算法存在问题。更有可能的情况是人为的错误被引入了到训练数据中，从而产生偏差或其他的系统错误。我们应始终持怀疑的态度，并采用适用于软件工程学的方式来对待机器学习。
机器学习可能会在无意中创造了一个自我实现的预言。在机器学习的许多应用中，你今天所做的决策会影响明天收集的训练数据。一旦机器学习系统将偏差融入到模型中，它可以会继续生成偏差增强了的新训练数据。而且，一些偏差可能会毁掉人们的生活。请负责任一点：不要创造自我实现的预言。
AI不会自我觉醒、造反并毁灭人性。相当多的人似乎是从科幻电影中得到有关人造智能的概念的。我们应该从科幻小说中得到启发，但并不能这么傻，把小说误认为是现实。从有意识的邪恶人类到无意识的有偏差的机器学习模型，有太多的现实和危险需要担心。所以你可以不用担心SkyNet和“superintelligence”（译者注：SkyNet和superintelligence分别是科幻电影和科幻小说）。

机器学习涉及到的内容远远超过我上面提到的十点说明。希望这些介绍性的内容对非专业人士有用。

文章原标题《10 Things Everyone Should Know About Machine Learning》，作者：Daniel Tunkelang，译者：夏天，审校：主题曲。

文章为简译，更为详细的内容，请查看原文

关于机器学习你必须了解的十个真相

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

关于机器学习你必须了解的十个真相

热门文章

最新文章

相关课程

相关电子书

相关实验场景