停留在“玩具”层面的机器学习，该如何深入？-阿里云开发者社区

Drew Breuning，就职于美国大数据分析平台PlaceIQ。该公司是基于地理位置的大数据分析翘楚，2016年获阿里巴巴的投资。

机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多个领域，它是人工智能的核心，观其本质，察其影响，一起来看Drew Breunig眼中的机器学习。

时不时我们就会听到一些流行术语，如基因组编辑技术(CRISPR)、虚拟现实(VR)和机器学习(Machine Learning)等。由于曝光过于频繁，人们很容易就会失去兴趣。

基因编辑技术可能会改变我们的生活，但是了解其工作原理并不能给你带来实质性的帮助。虚拟现实将会吞噬传统媒体，但是硬件要求跟不上，意味着真正投入日常使用还有待时日。

科技界的弄潮儿都在关注？

别忽略了机器学习。

没错，机器学习能帮助我们开发出奇妙的的应用，但这不应该是我们去关注它的原因。

我们应该关注机器学习，因为它是谷歌、脸书和亚马逊正在钻研的东西，而这三家公司是科技界的弄潮儿。机器学习的本质、工作原理、提升方法以及如何呈现（载体），已经决定了它会给科技界带来巨变，即使现在它的价值体现仅仅是一小部分。

要理解机器学习的影响，我们要先探一探它的本质。

（下文中我将会使用“机器学习”和“深度学习”两种说法，两者概念相通。）

机器学习，让一切程序化

机器学习，或者说深度学习的目标，是为了让一切程序化。我在一月份的一篇文章中曾写到：

简而言之，机器学习就是为了让程序学会人类的认知能力。创建算法的第一步就是为程序提供大量人工分类整理的数据，比如说标记的图片。

程序会去分析这些数据并从中总结出规律。再接下来程序会将这种规律投入实际的运用。这也就是为什么脸书会让你标记图片、谷歌允许你进行图片搜索。

到目前为止，大部分机器学习的应用还停留在“玩具”层面。

比方说智能相册和更智能的语音识别，早期的不成熟我们是可以理解的。比方说人脸识别错误或者要你再重复一遍“没听懂”的的词语，这也没什么大不了。但是随着研究的深入和技术的成熟，我们会看到机器学习会被运用到各种丰富有趣的场景下。

这里的重点是，机器学习催生了好应用的出现，它们能够和用户所创造的内容进行交互，比如说照片、语音、文本以及其他各种形式的内容。这使得企业能够去开发更“懂”用户的应用。

这种技术的巨大潜力在于能帮助解决自世界上第一台通用计算机 Eniac 诞生后就一直存在的用户界面(UI)问题，众所周知，UI 的重大改进有望开启全新的计算时代。

机器学习模式必须要知道的三大要素

有了鼠标和图形操作界面，计算机变的易于操作，最终普及大屏千家万户。

触摸屏的出现让计算机变得不再那么高不可攀，电脑成了日常生活中的常见工具。

而基于机器学习的操作界面的诞生则让计算变的无处不在。

但是问题来了：

得先有人做好基本数据的分拣工作，好让机器去“学习”。

确定一个机器学习模式你需要三大要素(按重要性排列)：

训练数据：通过人工标记、分类整理的数据集
软件：创建机器学习模式的软件库载体
硬件：提供动力的中央处理器和图形处理器

硬件唾手可得，租或者买，简单。软件就更容易了！你很可能已经租了，如果没有，网上有大把开源免费的软件。硬件软件都搞定，现在你需要的是训练数据，大量的训练数据！祝你好运。

在我们深入了解你现在有多懵之前，我们先来看看为什么一开始我们就需要这么多的训练数据。

当下的机器学习软件已经很优秀，至少比以前的要好！但是要想保证高质量的结果输出，我们需要大量的训练数据。可以毫不夸张的说，机器学习模式的质量直接和训练数据的数量和质量成正比。

在更好的机器学习软件出现之前，想要从少量的数据搭建出好的机器学习模式是不可能的。然而残酷的事实是，更好的机器学习软件不会一夜之间就冒出来。

程序猿们日复一日地同bug对抗，才使得我们的软件一步步完善，而机器学习软件的完善还存在断点平衡的特点：时而进步缓慢，时而进步飞速；时而小进步，时而大飞跃。

正因如此，为机器学习软件调试或者改Bug是件很困难的事情，因为我们并不完全了解它到底是如何工作的。

这是机器学习最最我费解的事情。我们不完全知道它怎么工作的，也不能系统地去调试，出了问题只能去猜测，去查证。

训练数据——机器学习的生命之源

机器学习专家Pete Warden 曾说过：

尽管Krizhevsky的方案在2012年ImageNet图像识别打算上获胜，没有人真正知道为什么这个方案如此奏效，以及那些设计决定和参数最为重要。尽管这是一个在摸索中纠错改正的体现，但是我们还是无法从理论上知道它到底是如何工作的。

这也意味着只有研究人员更好的理解其工作原理，才能提出更有效的完善方案。就像我一个朋友说的，许多研究生都在研究这个，但原因是因为这能给他们带来高薪。

在我们真正了解深度学习如何工作之前，我们需要大量的训练数据。

训练数据就是机器学习的生命之源。

那我们如何获得训练数据呢？当下的平台并没有有效的利用其用户资源。

计算机要学习凌乱的人类事物，他们就需要这个凌乱世界中的人类来指导。这合情合理，但是考虑到我们的所需要的海量数据时，我们就能理解我们面临不小的挑战：到哪儿去找这么多人，还愿意零用他们的闲暇时间给我们创造训练数据？

如果你说，我可以招一些人。那我可以告诉你，这种规模的工作，给他们支付薪水是很大的问题。

如果你说，我去调教他们，bingo！你的回答离正确答案不远啦！

互联网媒体的撰稿人都说过一句话：如果你不付钱，那么你本人就会变成产品。这句话其实是针对广告赞助形式的产品的评价，比如脸书、谷歌、Tumblr和Snapchat等。

他们把你关注的东西打包卖给广告主，但这些公司这种重复性的工作恰恰有利于机器学习。

这些使用免费服务的用户就是要来训练计算机的人们，继而打造更好的产品和服务。免费这一点很重要，因为这能够产生大量的用户数据，而这正是我们创建机器学习模式所需要的训练数据。

这不禁让我想到了美洲印第安人充分利用水牛身上每一部分的故事。而这些在线服务也在学着如何学习和利用身上的方方面面。比如说利用用户所关注的东西来进行广告，再利用所掌握的用户信息来创造深度学习模式。

获得充足训练数据的关键有两点：

吸引大批用户
说服他们为你创建大量训练数据

这就像是Tom Sawyer和他的各种历险一样，但是规模是千百万倍。

“帮助了我们，也帮助了你自己。”

互惠数据应用(RDA)的崛起

一种新型应用(或应用功能)正在崛起。这些应用的设计理念在于创造训练数据，同时运用获取的数据去开发和完善产品本身。如此以来，用户能得到更好的应用，而企业也能获得高质量的用户数据。

这种互惠数据应用(RDA)最常见的一个例子就是脸书的照片。

用户上传照片之后，脸书会鼓励用户对照片中的人物（面部）进行标记，方便快捷。这样一标记，方便了你日后搜索这些照片。而标记本身也能吸引好友的关注继而引出对话，而这也是人们喜欢泡在脸书上的量大主要原因。

与此同时，这些标记行为也生成了大量的训练数据，并被运用到机器学习模式中去。更好的机器学习模式则会给用户带来更好的标价建议和其他功能。得益于RDA这种应用，脸书才有了世界上最好的人脸识别技术(之一)。

谷歌搜索则是另一个RDA应用案例。你的搜索和选项为谷歌提供了训练数据，反过来谷歌利用这些数据来提升搜索体验。

不管是脸书照片还是谷歌搜索，以及一些其他的RDA应用，他们都能产生一种网络效应。使用一个应用的人越多，产生的数据就越多，最终这些数据就会让应用变的更好，最终更多的人来使用这个应用。

在赢家垄断的市场，网络效应是风投公司需要的发展引擎。之前在硅谷常见的网络效应就是社交/聊天（你的朋友去哪儿，你也会想跟着去）或者市场。（买家扎堆集结在消费者多的地方）

这也是为什么几乎所有的非市场、由风投资助的应用或服务都挤破头想要增加分享或者聊天功能的原因，即便这在他们的应用中看起来多么的格格不入。（支付宝中枪）

RDA是创建网络效应的新方法，这一点时至今日才被人们意识到。随着其商业价值被人们所认识，它必将会被更广泛的运用。

RDA的普及将会是机器学习的第一要务。不仅是因为RDA能带来资源，还因为RDA能影响到硬件和软件。

以下是RDA的一些属性：

应用必须联网，最好是一直在线。否则就无法将收集到的数据传回服务器。
几乎所有的计算都要跳脱出设备进行。主要计算任务就是机器学习模式的创建，而这需要访问用户创建的大量训练数据集。因此，模式的创建不在设备本身进行。
把新数据和已经计算好的模式进行对比，计算成本是比较低廉的。（经典案例就是图片中的人脸识别或者语音识别）
好的应用需要庞大的用户群来支撑。拥有大量的用户，才有可能获得更多的训练数据。
好的应用需要用户更多的去使用。用户使用应用能够的时间越长，就意味着可以创建更多的训练数据。
好的应用能促进精准训练数据的产生。如果一个应用bug频出，那收集到的数据质量也不高。应用的设计要便于用户快速、精准的输入数据。

那么怎么去开发一款优秀的RDA应用呢？

零和游戏的挑战，

用收集速度衡量RDA的价值

RDA的数据价值可以通过具体产品来呈现，尤其上文的后三点所对应的产品。（3、4、5）

比方说，你可以有一个相对小的用户群，但是要确保这些用户能花费较多的时间在你的应用上，并且以一种可靠的模式给你提供数据。（比方说社交应用Tinder, 就是通过大量的训练数据结果来决定推送的图片是否对用户有吸引力）

当然你也可以拥有一个更庞大的用户群，用户会时不时的给你提供训练数据。（比方说脸书，用户只会在上传完图片后对其中任务进行标记，这种标记就是在为脸书提供训练数据）

这边我们所面临的挑战是，上文中的第3点和第4点其实是一种零和游戏。如果说全世界50%的用户贡献了20%的时间在脸书上，那么留给你的应用的时间就没多少了。

哪怕你建立起庞大的用户群，一天从他们身上争取到两分钟的时间，你的训练数据也没法超越脸书。因为数据的手机是持续不断的，所以不能根据数据量来衡量RDA的价值，而应该是收集速度。

注：zero sum game，零和博弈，又称零和游戏，与非零和博弈相对，是博弈论的一个概念，属非合作博弈，指参与博弈的各方，在严格竞争下，一方的收益必然意味着另一方的损失，博弈各方的收益和损失相加总和永远为“零”。双方不存在合作的可能。

但是，如果你能收集到脸书收集不到的训练数据，即使你的用户量少，你也在某种程度上没法被别人超越。因此小公司和初创公司想要有竞争力，得想办法获取独一无二的训练数据。

创建一个有价值的RDA应用有三大途径：

1. 获取大量用户：开发出有竞争力的应用以获取大量用户。硅谷人都深谙此道。开发出一个爆炸性的应用，获得关注，最终得到风投做强做大。当然这是一种偶然的发家途径。

做大之后，不断改善你的应用来更好的收集训练数据，从而更好的实现训练数据价值的多样化。这条路很难，需要大量的运气，还有大量的资金。

这就像是第22条军规一样，一旦你做大，随之而来就是大量的金钱投入广告。因此我们不推荐走这个途径。

注：“Catch-22”，小说名字，已经进入英语词典之中,成为常用的英语词汇。它代表了统治者对于民众的愚弄,也代表了民众对于统治者的抨击。

2. 获取大量用户时间：开发能够说服用户在上面花费大量时间的应用。大多数情况下，这类应用或者服务属于被动使用。比方说导航应用，或者一直在线的数字助理。这类应用能随时为人们提供信息，同时也提高了产生训练数据的速度。

3. 收集独一无二的训练数据：开发能收集别人收集不到的数据的应用。这种情况下，你的应用在一开始不需要规模多宏大，但是要有收集独一无二训练数据的远见和目标。

这样的数据之后会帮助你给你的应用打造独一无二的新功能。这些新功能需要有足够的吸引力，来鼓励更多的用户下载使用。

另外，要在大量的竞争对手调整其应用设计进入市场之前，保证你收集数据的速度够快。如此一来，你才有超越谷歌或者脸书的可能。

你可能意识到上述第2条途径可能不太适用于运行在智能手机上的应用。其实不然！通过把计算引入到新的运行环境中，我们能够创造出更稳固的RDA应用，从而增加用户的使用时间。

或者，新的运行环境会带来新的训练数据，某种意义上就是上述第3条途径所说的独一无二的数据。

值得庆幸的是，几乎所有的RDA功能价值的实现都是通过远程服务器处理大量数据来实现，设备本身是被“解放”出来的。因为价值实现放在统一的服务器上，因此RDA应用本身能适用于更多的设备和使用场景。

人们不怎么提Pebble的运行速度是有原因的，因为它的计算和处理是并不是由设备本身进行。

注： Pebble智能穿戴厂商。

Pebble Core

第一款非手表类的可穿戴设备

当大部分计算任务都在服务端进行时，真正运行RDA的设备就不需要进行太多的计算。设备不需要太强的CPU，因为它只需要把数据放置到预先定义好的数据模式中，进行简单的对比运算。

运行速度慢的CPU意味着更小的体积，这也意味着只需少量的晶体管，所以散热也会较少。它们的能耗也比较低，所以可以配备更小的电池。更重要的一点是：成本低！

这一切都意味着能搭载RDA应用的设备会疯狂的普及。比方说我们能在一个产品中搭载便宜的计算设备，又能够连接无线网，从而收集高质量的数据，那何乐而不为呢?

所以最后我们会看到RDA应用无孔不入：你的车子里面，你的手臂上（穿戴设备），你的浏览器中、蓝牙音响中，等等等等。

一个明显的例子就是Pebble Core，一款定位为计步和音乐播放的穿戴设备，其实就是一个具备基本计算功能的电子狗。价格低廉只要69美元，配备低能耗CPU、 WiFi、移动数据连接、蓝牙、轻量存储、耳机、两个按钮和一块电池。

注：Pebble Core历史上第一款非手表类别的可穿戴设备,一个类似iPod Shuffle 的设备(Pebble官方比喻),具备音乐播放器功能。

通过把Alexa所需要的计算转移到服务器端，亚马逊可以把Alexa部署到各个地方。Alexa目前已经深入到蓝牙音箱、HDMI接口等任何可以搭载Alexa的地方。而Alexa走入汽车也是不远的事了。

正因如此，亚马逊和其他公司都在积极的拓展他们的产品和服务，好让你在上面画更多的时间。在未来，这会带来新的训练数据，从而反过来创造更好的机器学习模式。

需要说明的是，钻研机器学习的企业并不是为了生产出更强大的设备。因为设备本身的普及有着价格和更新换代快的局限在那儿，因此要普及的是RDA本身的机制。

我们预测行业的焦点不会放在创造出强大的设备，而是放在所搭载的RDA应用本身计算能力的提高上。

更好的业务模式，

该如何利用RDA网络效应创造？

总结下来，机器学习将会对科技行业带来以下价值：

赢家们会赢的更多：当下的佼佼者比如脸书和谷歌会继续保持领先。他们有着大量的用户和用户使用时间，海量的训练数据和资金。所以你要是想迎着头去也去收集同样的数据来跟他们竞争，那你基本上没戏了。
成功的初创公司将会去收集独一无二的训练数据：他们可以避开谷歌和脸书的优势，去开辟新领域的训练数据的收集。
RDA是新型的网络效应模式：随着其出现和成熟，企业和投资者会更好的理解如何通过RDA的网络效应来创造更好的业务模式。
机器学习会加速物联网的到来：硬件的能力可能会停滞不前，但是未来计算机将会拓展到。

原文发布时间为：2017-05-30

本文作者：Drew Breunig

本文来自云栖社区合作伙伴“数据派THU”，了解相关信息可以关注“数据派THU”微信公众号