“沃森”来了:大数据原来可以这样玩儿

简介:  最近重温了部电影,威尔史密斯主演的《I,Robot》。在故事中的时代,地球上每十五个人就拥有一台人能智能机器人,从工作助理到家庭保姆,机器人渗透进人类生活的方方面面,它们不仅成为人类的得力工具,更成为人类家庭的一份子。
0.jpg

 最近重温了部电影,威尔史密斯主演的《I,Robot》。在故事中的时代,地球上每十五个人就拥有一台人能智能机器人,从工作助理到家庭保姆,机器人渗透进人类生活的方方面面,它们不仅成为人类的得力工具,更成为人类家庭的一份子。片中的机器人能够与人类交流,理解人类意图,甚至最终进化到能够独立思考,拥有人类的思想。 
这让笔者想到了IBM的“沃森”人工智能计算机,虽然目前沃森和片中的智能机器人还有着不小的差距,但沃森和这些智能机器人有着相似的地方:能够识别人类自然语言,运用人类思维特征来表达意思和作出决策——IBM将这种原则称之为“认知计算”。

结合时下最为热门的大数据趋势,这种“认知计算”方式为大数据应用和分析提供了新的途径,试想一下,当我们对着计算机说上几句话,就能得出最想要的结果,比如“我们该在哪里开设下一家店?我去哪能买到最便宜的衬衫?这样的症状应该如何诊断?…”看上去这像是科幻电影中的桥段,但事实上这是大数据及分析所追求的一种终极目标。
 
目标很遥远,但沃森的问世让我们看到了目标的雏形。近日,IBM又宣布将把“沃森”应用于云环境的开发平台,开放API,让企业能够开发自家的“沃森”App,从而构建起“沃森”生态圈,将“沃森”应用到更广泛的领域。此外,IBM还建立了一个“沃森”内容库,供应商可以为沃森提供内容,包括通用和专用的信息,如医疗保健等。
 
开放“沃森”API、建立生态系统,沃森又将大数据的终极目标向前推进了一大步。
 
“沃森“是谁?它怎么工作?
 
将人工智能计算机以IBM创始人的名字来命名,足见IBM对“沃森”寄予厚望。
 
沃森诞生于IBM在2006年启动的一个有关“认知计算”的研发项目,期间,IBM并没有透露太多的消息。2011年2月,沃森首次公开亮相,在美国电视节目《危险边缘》中战胜人类冠军而名声大噪。在节目中,沃森能够分析和理解人类语言,能够准确的得出答案,并展现出比人类更快的答题速度,这不禁让人惊呼,机器代替人脑的时代要来临了么?
 
这并不是机器首次战胜人类,早在1997年,IBM超级计算机“深蓝”在国际象棋赛中战胜了当时的世界冠军卡斯帕罗夫,成为第一台战胜人类的智能电脑。尽管都是人工智能的产物,但“沃森”和“深蓝”有着巨大的不同:“深蓝”存储着数量有限的国际象棋走法,通过数据规则来预测象棋的走法,实际上“深蓝”所处理的还是比较明确的机器语言,而“沃森”大有不同,它所处理的是人类的自然语言。
 
和明确的机器语言相比,自然语言对一台机器来说是非常不明确的,因为它有着无限种的表达方法。IBM系统与科技部Power Systems全球实验室服务总监Ian Jarman先生举过这样一个例子:我们知道,爱因斯坦出生在德国乌尔姆,计算机也能够识别这种结构化的数据;但如果换成自然语言,比如“有一天,Otto从乌尔姆的诸多城市景致图画之中,选择了一幅水彩画寄给爱因斯坦,作为对他出生地的纪念”,计算机就难以回答爱因斯坦到底出生在哪里。
 
沃森在《危险边缘》中所表现出来的,是超强的对自然语言的理解能力,当然,要得出准确的结果,仅仅有对自然语言的理解还是不够的,还需要从大量的结果中筛选出最为合适的。Ian Jarman先生曾解释过沃森的工作原理:分析问题和主题——从答案来源中生成假设——从证据来源中给假设和证据评分——合并和排名置信度计算——得出具有置信水准的答案。
 
通俗来说,沃森得出正确结果的关键是提出以证据为基础的假设,如果你提一个问题的话,计算机理解了会产生很多的答案,沃森会收集一些证据来支持这些答案,然后根据对不同答案的评分作出最好的选择。另外沃森还具备适应和学习的能力,沃森可以进行人机对话,它会吸收人们给予它的新信息,对它所作的决定或者答复加以修改和改进。
 
 “沃森”和“大数据”
 
自然语言理解、找到证据、判断,是沃森所具备的的三大能力,这种“认知计算”能力让沃森在当前的大数据浪潮中大有用武之地。
 
大数据已经被公认为是一座“金矿”,但如果从中无法提取“黄金”,大数据也毫无价值可言。大数据有着数量大、速度快、多样性、不确定性等特点,故而数据的采集、存储、管理和分析并不简单,如何将纷繁数据化繁为简,实现类似人脑的认知与判断,发现新的关联和模式,从而做出正确的决策,才是大数据分析的核心价值。
 
沃森的工作过程实际上是一个完整的大数据分析过程:识别理解自然语言是处理非结构化数据的过程,找到证据就是从不同来源的大数据中检索的过程,判断就是给证据评分,作出最佳决策的过程。好比我们在谷歌进行搜索,输入关键字中可能会出现数十万条结果,哪条结果是最合适自己的,需要自己来判断;沃森所做的就是充分理解我们的意图,帮助我们从海量的结果中挑出最合适的,它代替了人类进行分析决策的过程。
 
具备这些能力,沃森在大数据领域会有非常光明的前景,因为大量的行业的数据资料都是以自然语言编写的,比如医疗行业的医疗记录、文本、杂志和研究资料,这些都是计算机难以理解语言;在零售、旅游、金融、电信、服务等行业,同样存在着大量以自然语言存储和编写的资料,如果存在一套能够这些自然语言资料中快速找出准确答案的系统,将为行业带来巨大的改变。
 
据Ian Jarman先生介绍,沃森不再是电视节目中的明星,如今已经进入医疗、金融、呼叫中心行业提供支持服务。比如在医疗领域,沃森从不同的信息来源采集数据并且提炼,给医院,或者是医师、医生提供医疗采购方面的建议和咨询意见。在美国德克萨斯大学MD Anderson癌症中心,沃森已经在其中对医生提供建议,以助于治疗复杂的疾病和癌症。
 
  沃森商用要过几道关
 
IBM将沃森作为面向大数据市场的重要工具,为了让沃森进入更多的行业,IBM近日宣布建立沃森生态系统,向合作伙伴提供技术、工具和API编程接口,希望借助云服务和访问工具,利用沃森帮助合作伙伴开发他们的认知计算软件及系统。首批合作伙伴包括零售业的Fluid、医疗保健领域的MD Buyline以及健康管理领域的Welltok。另外,IBM还建立了一个沃森内容库,供应商可以为沃森提供内容,包括通用和专用的信息,如医疗保健数据资料等。
 
寻找合作伙伴是IBM的习惯做法,也起到了很好的效果,例如在IBM Power Systems在中国实施的“天工计划”和“天合计划”,大大提升了Power服务器的市场覆盖面。
 
独木不成林,沃森要拓宽应用领域,也需要建立自己的生态圈。IBM更擅长的是硬件和大数据分析工具,想要将沃森应用于那些具有专业性的行业,例如医疗,就需要借助那些具有较深行业背景的合作伙伴的力量。同时,沃森能够得出正确答案的关键在于以丰富的证据来支持结果,这就需要广泛的信息来源,沃森内容库的建立更需要IBM和合作伙伴以及客户的通力合作。
 
那么,是不是意味着沃森的合作伙伴越多、生态环境越大,沃森越容易找到需要的结果和支持的证据?是不是IBM应当将沃森内容库向所有人开放,就像谷歌,让所有人都能够贡献数据资源?笔者认为这不是一个理想的状态,虽然沃森需要广泛的信息来源,但前提是这些信息应当是可信的,因为沃森要从中寻找证据来支持结果,所以信息来源的可信度是关键,一旦根据大量错误的证据得出错误的答案,后果是非常严重的。
 
这正是沃森和谷歌所不同的地方,谷歌虽然有大量的信息来源,但其中有可信的,也不乏大量的不可信信息,大量信息的检索也会增加系统的负载。笔者认为这也是目前IBM谨慎的选择沃森伙伴的原因。未来,沃森也许不会向公众公开信息来源的渠道,因为信息的甄选并不是件容易的事情。但是,用沃森来提供公共云服务是个不错的做法,公众可以更加快速准确的获得专业的建议和搜索结果,免去了自己筛选和判断的麻烦。
 
另外一个问题,沃森目前还仅限于理解英语语言,还没有多语言版本,也就是说,在繁杂的语言环境中沃森的自然语言理解优势也就不复存在了。例如在中国有着大量的方言和表述方法,即使对于一名中国人来说,很多语境理解起来也颇具困难。想想看,让一台机器去理解“倒鸭子”,仿佛是件匪夷所思的事情。不过支撑沃森的一些底层技术,如Power服务器、Symphony、InfoSphere等大数据分析平台和技术在中国都已经上市,假以时日,未来也许能理解“倒鸭子”的方言版沃森也会横空出世。
 
最后总结一下,沃森所代表的认知计算,为大数据的未来描绘了一幅美丽的图景,也将人工智能大大推进了一步。也许未来大数据应用就是那样简单,我们只需对着计算机、甚至是随身的终端设备说出我们的需求,就能快速得到最准确的答案。


原文发布时间为:2013-12-10


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
大数据
你是如何被“大数据”洗脑的?
在这个大数据盛行的时代,到底是应该相信常识还是相信时代呢?
1888 0
|
存储 人工智能 算法