“沃森”来了：大数据原来可以这样玩儿-阿里云开发者社区

最近重温了部电影，威尔史密斯主演的《I,Robot》。在故事中的时代，地球上每十五个人就拥有一台人能智能机器人，从工作助理到家庭保姆，机器人渗透进人类生活的方方面面，它们不仅成为人类的得力工具，更成为人类家庭的一份子。片中的机器人能够与人类交流，理解人类意图，甚至最终进化到能够独立思考，拥有人类的思想。
这让笔者想到了IBM的“沃森”人工智能计算机，虽然目前沃森和片中的智能机器人还有着不小的差距，但沃森和这些智能机器人有着相似的地方：能够识别人类自然语言，运用人类思维特征来表达意思和作出决策——IBM将这种原则称之为“认知计算”。

结合时下最为热门的大数据趋势，这种“认知计算”方式为大数据应用和分析提供了新的途径，试想一下，当我们对着计算机说上几句话，就能得出最想要的结果，比如“我们该在哪里开设下一家店？我去哪能买到最便宜的衬衫？这样的症状应该如何诊断？…”看上去这像是科幻电影中的桥段，但事实上这是大数据及分析所追求的一种终极目标。

目标很遥远，但沃森的问世让我们看到了目标的雏形。近日，IBM又宣布将把“沃森”应用于云环境的开发平台，开放API，让企业能够开发自家的“沃森”App，从而构建起“沃森”生态圈，将“沃森”应用到更广泛的领域。此外，IBM还建立了一个“沃森”内容库，供应商可以为沃森提供内容，包括通用和专用的信息，如医疗保健等。

开放“沃森”API、建立生态系统，沃森又将大数据的终极目标向前推进了一大步。

“沃森“是谁？它怎么工作？

将人工智能计算机以IBM创始人的名字来命名，足见IBM对“沃森”寄予厚望。

沃森诞生于IBM在2006年启动的一个有关“认知计算”的研发项目，期间，IBM并没有透露太多的消息。2011年2月，沃森首次公开亮相，在美国电视节目《危险边缘》中战胜人类冠军而名声大噪。在节目中，沃森能够分析和理解人类语言，能够准确的得出答案，并展现出比人类更快的答题速度，这不禁让人惊呼，机器代替人脑的时代要来临了么？

这并不是机器首次战胜人类，早在1997年，IBM超级计算机“深蓝”在国际象棋赛中战胜了当时的世界冠军卡斯帕罗夫，成为第一台战胜人类的智能电脑。尽管都是人工智能的产物，但“沃森”和“深蓝”有着巨大的不同：“深蓝”存储着数量有限的国际象棋走法，通过数据规则来预测象棋的走法，实际上“深蓝”所处理的还是比较明确的机器语言，而“沃森”大有不同，它所处理的是人类的自然语言。

和明确的机器语言相比，自然语言对一台机器来说是非常不明确的，因为它有着无限种的表达方法。IBM系统与科技部Power Systems全球实验室服务总监Ian Jarman先生举过这样一个例子：我们知道，爱因斯坦出生在德国乌尔姆，计算机也能够识别这种结构化的数据;但如果换成自然语言，比如“有一天，Otto从乌尔姆的诸多城市景致图画之中，选择了一幅水彩画寄给爱因斯坦，作为对他出生地的纪念”，计算机就难以回答爱因斯坦到底出生在哪里。

沃森在《危险边缘》中所表现出来的，是超强的对自然语言的理解能力，当然，要得出准确的结果，仅仅有对自然语言的理解还是不够的，还需要从大量的结果中筛选出最为合适的。Ian Jarman先生曾解释过沃森的工作原理：分析问题和主题——从答案来源中生成假设——从证据来源中给假设和证据评分——合并和排名置信度计算——得出具有置信水准的答案。

通俗来说，沃森得出正确结果的关键是提出以证据为基础的假设，如果你提一个问题的话，计算机理解了会产生很多的答案，沃森会收集一些证据来支持这些答案，然后根据对不同答案的评分作出最好的选择。另外沃森还具备适应和学习的能力，沃森可以进行人机对话，它会吸收人们给予它的新信息，对它所作的决定或者答复加以修改和改进。

　“沃森”和“大数据”

自然语言理解、找到证据、判断，是沃森所具备的的三大能力，这种“认知计算”能力让沃森在当前的大数据浪潮中大有用武之地。

大数据已经被公认为是一座“金矿”，但如果从中无法提取“黄金”，大数据也毫无价值可言。大数据有着数量大、速度快、多样性、不确定性等特点，故而数据的采集、存储、管理和分析并不简单，如何将纷繁数据化繁为简，实现类似人脑的认知与判断，发现新的关联和模式，从而做出正确的决策，才是大数据分析的核心价值。

沃森的工作过程实际上是一个完整的大数据分析过程：识别理解自然语言是处理非结构化数据的过程，找到证据就是从不同来源的大数据中检索的过程，判断就是给证据评分，作出最佳决策的过程。好比我们在谷歌进行搜索，输入关键字中可能会出现数十万条结果，哪条结果是最合适自己的，需要自己来判断;沃森所做的就是充分理解我们的意图，帮助我们从海量的结果中挑出最合适的，它代替了人类进行分析决策的过程。

具备这些能力，沃森在大数据领域会有非常光明的前景，因为大量的行业的数据资料都是以自然语言编写的，比如医疗行业的医疗记录、文本、杂志和研究资料，这些都是计算机难以理解语言;在零售、旅游、金融、电信、服务等行业，同样存在着大量以自然语言存储和编写的资料，如果存在一套能够这些自然语言资料中快速找出准确答案的系统，将为行业带来巨大的改变。

据Ian Jarman先生介绍，沃森不再是电视节目中的明星，如今已经进入医疗、金融、呼叫中心行业提供支持服务。比如在医疗领域，沃森从不同的信息来源采集数据并且提炼，给医院，或者是医师、医生提供医疗采购方面的建议和咨询意见。在美国德克萨斯大学MD Anderson癌症中心，沃森已经在其中对医生提供建议，以助于治疗复杂的疾病和癌症。

　　沃森商用要过几道关

IBM将沃森作为面向大数据市场的重要工具，为了让沃森进入更多的行业，IBM近日宣布建立沃森生态系统，向合作伙伴提供技术、工具和API编程接口，希望借助云服务和访问工具，利用沃森帮助合作伙伴开发他们的认知计算软件及系统。首批合作伙伴包括零售业的Fluid、医疗保健领域的MD Buyline以及健康管理领域的Welltok。另外，IBM还建立了一个沃森内容库，供应商可以为沃森提供内容，包括通用和专用的信息，如医疗保健数据资料等。

寻找合作伙伴是IBM的习惯做法，也起到了很好的效果，例如在IBM Power Systems在中国实施的“天工计划”和“天合计划”，大大提升了Power服务器的市场覆盖面。

独木不成林，沃森要拓宽应用领域，也需要建立自己的生态圈。IBM更擅长的是硬件和大数据分析工具，想要将沃森应用于那些具有专业性的行业，例如医疗，就需要借助那些具有较深行业背景的合作伙伴的力量。同时，沃森能够得出正确答案的关键在于以丰富的证据来支持结果，这就需要广泛的信息来源，沃森内容库的建立更需要IBM和合作伙伴以及客户的通力合作。

那么，是不是意味着沃森的合作伙伴越多、生态环境越大，沃森越容易找到需要的结果和支持的证据？是不是IBM应当将沃森内容库向所有人开放，就像谷歌，让所有人都能够贡献数据资源？笔者认为这不是一个理想的状态，虽然沃森需要广泛的信息来源，但前提是这些信息应当是可信的，因为沃森要从中寻找证据来支持结果，所以信息来源的可信度是关键，一旦根据大量错误的证据得出错误的答案，后果是非常严重的。

这正是沃森和谷歌所不同的地方，谷歌虽然有大量的信息来源，但其中有可信的，也不乏大量的不可信信息，大量信息的检索也会增加系统的负载。笔者认为这也是目前IBM谨慎的选择沃森伙伴的原因。未来，沃森也许不会向公众公开信息来源的渠道，因为信息的甄选并不是件容易的事情。但是，用沃森来提供公共云服务是个不错的做法，公众可以更加快速准确的获得专业的建议和搜索结果，免去了自己筛选和判断的麻烦。

另外一个问题，沃森目前还仅限于理解英语语言，还没有多语言版本，也就是说，在繁杂的语言环境中沃森的自然语言理解优势也就不复存在了。例如在中国有着大量的方言和表述方法，即使对于一名中国人来说，很多语境理解起来也颇具困难。想想看，让一台机器去理解“倒鸭子”，仿佛是件匪夷所思的事情。不过支撑沃森的一些底层技术，如Power服务器、Symphony、InfoSphere等大数据分析平台和技术在中国都已经上市，假以时日，未来也许能理解“倒鸭子”的方言版沃森也会横空出世。

最后总结一下，沃森所代表的认知计算，为大数据的未来描绘了一幅美丽的图景，也将人工智能大大推进了一步。也许未来大数据应用就是那样简单，我们只需对着计算机、甚至是随身的终端设备说出我们的需求，就能快速得到最准确的答案。

原文发布时间为：2013-12-10

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

“沃森”来了：大数据原来可以这样玩儿

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景