狐狸,贝叶斯与大数据的思维方式

简介:        本文作者:郑毅,著有《证析》一书,大数据实验室合伙人      《证析:大数据与基于证据的决策》更多关注数据对商业与社会领域决策的影响。上编对证析所处的时代背景、证析对传统决策方式的挑战、证析在企业中的应用案例进行介绍,并着重介绍了实验在指导社会实践中的思想和实例。
0.jpg

       本文作者:郑毅,著有《证析》一书,大数据实验室合伙人

     《证析:大数据与基于证据的决策》更多关注数据对商业与社会领域决策的影响。上编对证析所处的时代背景、证析对传统决策方式的挑战、证析在企业中的应用案例进行介绍,并着重介绍了实验在指导社会实践中的思想和实例。下编主要从证析对企业的价值、为了发挥证析的价值而在企业组织架构、考核体系、决策流程、组织文化等方面应有的考虑。除了介绍最新的管理思想与企业实践之外,因为证析的着眼点是数字与决策,所以贯穿全书也不可避免会涉及对科学研究方法的探讨。

 

      假设掷出一枚硬币,正面朝上的概率是50%,如果连续99次投掷硬币都是正面朝上落地,那么下一次投掷硬币正面朝上落地的概率是多少?这是Taleb在《黑天鹅》一书中给出的一个假想的问题。在Taleb的书中,受过正统教育的约翰博士给出了教科书教给我们的标准回答,下一次投掷硬币正面朝上落地的概率仍然为50%,因为下一次硬币朝向与之前投掷的结果无关。而教育背景没有那么光鲜的胖托尼则认为下一次投掷硬币正面朝上的概率为99%。孰对孰错?我和读者都不妨给出自己的判断。而如果一定要为自己的答案下一万块钱的赌注的话,我和Taleb一样,更倾向于与不是那么教条的胖托尼保持一致,更倾向于相信下一次硬币正面朝上的几率为99%,更倾向于相信我之前的有关正面朝上落地的概率是50%的假设是错误的。

2012年,“大数据”是一个抓住了上到国家政要下到普通老百姓眼球的热词。随着技术的进步,数据获取成本、数据存储与处理成本都在以指数的速度迅速下降,普通老百姓都能感觉到数据将对人们的生活产生至关重要的影响。虽然,人们谈大数据时往往都会谈及利用Hadoop等新兴技术对海量数据处理等技术问题,也会谈及Facebook、Google等公司所处理的PB级别数据的问题。但是,正如周涛教授所言,大数据的核心问题在于预测。电子商务网站通过数据预测顾客是否会购买推荐的产品;信贷公司通过数据预测借款人是否会违约;执法部门用大数据预测特定地点发生犯罪的可能性;交通部门利用数据预测交通流量。但是,预测不是大数据时代才有的新问题,它是人类本能的一部分。心理学家认为,对世界一致性观点的需求以及对环境控制力的需求是人类的两个基本需求,而在此基本需求驱动下,人类像“朴素的科学家”(na?ve scientist)一样行为,理性地合乎逻辑地验证自己关于世界的假设。即使原始人通过他的切身体会也可以知道,如果将手伸到火中将会被烫伤。这样,原始人根据其直接经验可以构建关于火与烫伤之间关系的关联模型。数字是人类直接感觉的延伸,正如麦克卢汉所说,“数字是我们最亲密的、相互关系最密切的(触觉)的延伸与分离……古代世界不可思议地将数字与物质实体的性质联系在一起,与事物的因果关系联系在一起……科学始终倾向于将一切客体量化……(数字是)我们的中枢神经系统在电力时代的延伸。”而未来无所不在的传感器将构成地球的中枢神经系统(Central Nervous System for the Earth CeNSE)。这个地球的中枢神经系统使得人们能够超越其直接体验,感知到来自地球每个角落的讯息,这些形式多样的、海量的、快速的(Variety、Volume、Velocity)信息流将构成大数据时代的主要特征。而人们将基于这些信息理解世界,构建与验证关于世界的新的假设,并以此为基础进行预测,并采取行动。

       但是,与科学研究中以求真为目的的构建模型不同,大数据时代的模型构建将更加以务实为目的,即遵循统计学家George E. P. Box的观点“本质而言,所有模型都是错误的,只是有些模型更有用”(Essentially, all models are wrong, but some are useful)。大数据时代的很多模型都是为了指导商业决策而设的,而商业决策通常会影响决策者的利益。所以,一个模型是否正确不是最重要的,重要的是决策者对这个模型有多大的把握,决策者能否从这个模型中获利。所以,大数据时代中最为关键的应该是基于数据的模型能否说服决策者据此进行决策,并且帮助决策者改善决策赚取相应的利润。前者表现为决策者愿意将多少钱押在这个模型上,而后者表现为这个模型在现实中的表现如何。所以,如果让读者你参加本文开始所设计的假想赌局,无论约翰博士看起来多么专业也不能阻止读者更相信胖托尼的模型,因为毕竟这涉及到真金白银。胖托尼也许在最初和约翰博士一样,相信硬币正反面朝上面落地的概率各是50%。既然所有模型都是错的,但是胖托尼能够利用他所观察到的硬币一次次正面朝上落地的事实修订他的模型,使其越来越接近真实情况。而约翰博士仍然抱残守缺,固守着他的50%的最初假设。

       以赛亚*伯林(Isaish Berlin)曾经援引古希腊诗人的残简“狐狸多知而刺猬有一大知”将知识分子分为狐狸和刺猬两类。刺猬用一个宏大的概念解释所有现象,如约翰博士一般;狐狸知道很多事情,用多元化的甚至相互矛盾的视角看待问题,狐狸也愿意包容新的证据以使得自己的模型与之相适应,如胖托尼一般。Tetlock等人的研究表明,在现实的预测中,狐狸的表现要优于刺猬。在大数据时代,人们能够接触越来越多的信息,这些信息能否修订决策者已有的观念,对决策者的决策产生影响,这是大数据能否发挥价值的关键所在。有些刺猬类决策者,他们可能会有意无意忽略与其观念相左数据而只保留那些能够证明其想法的数据,在这里无论系统处理了什么规模的数据,这些系统投资也只是粉饰太平的装饰,没有太大意义。

很多人都知道亚当斯密(Adam Smith)在《国富论》中所描述的市场中的“看不见的手”。在市场中,没有人掌握有关生产和消费的全局信息,但是人们通过市场交易对供需的行为作出反应,从而逐步更新价格,进而达到平衡。与亚当斯密同时代且同在苏格兰接受教育的Thomas Bayes的贝叶斯定理(Bayesian's Theorem)也和亚当斯密的“看不见的手”有相通之处。贝叶斯理论允许每个人拥有有关世界的先验的信念,胖托尼也许最初认为硬币正面朝上的概率是1/2,如果他看到了99次投掷硬币的结果中有50次是正面朝上,他会认为这个硬币正面朝上的概率是51/101,大致可以确信硬币正面朝上的概率是50%。而当他看到了连续99次的硬币正面朝上落地,则他不断利用数据修改其信念,认为这个硬币可能有问题,正面朝上的概率应为100/101,即本文开始部分所预测的99%。当然,你也可以如约翰博士一样固守自己最初50%的教科书般的假设,而这样的结果是你输掉了一次又一次的赌博,直到出局。

       利用新的数据与新的证据不断修订对世界的假设是狐狸式的思维方式也是贝叶斯思维方式的基本理念,这也应当是大数据时代思维的基本理念。随着互联网及云计算的普及,在大数据时代,人们有机会从多个渠道、多个角度获得对事物的知识。贝叶斯的“看不见的手”利用这些知识逐步修订人们对事物的假设,而人们基于这些假设进行的决策通过亚当斯密的市场的“看不见的手”被评估与选择,从而形成相应的社会秩序。无论人们最初关于事物的认识存在什么样的差异,在贝叶斯与亚当斯密两重“看不见的手”的作用下,“随着越来越多的证据的出现,我们的信念将趋于一致,并且趋于真相……即使我们最初拥有有误的甚至是错得离谱的先验认识,最终也将趋于真相。”


原文发布时间为:2013-09-29


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5天前
|
机器学习/深度学习 人工智能 运维
江帅帅:科学提升认知方法之贝叶斯公式
江帅帅:科学提升认知方法之贝叶斯公式
14 0
|
10月前
|
机器学习/深度学习 分布式计算 DataWorks
用数据讲故事:十大统计学/机器学习魔法指数
用数据讲故事:十大统计学/机器学习魔法指数
200 0
|
11月前
|
机器学习/深度学习 人工智能 算法
王怀民院士:图灵计算模型仍是最深刻的理论基础,是新科学基础的基点
王怀民院士:图灵计算模型仍是最深刻的理论基础,是新科学基础的基点
|
安全 ice
画一座冰山,看它沉浮!从简笔画到数据科学,Kaggle冰川图像分类比赛如何征服“轮船克星”?
画一座冰山,看它沉浮!从简笔画到数据科学,Kaggle冰川图像分类比赛如何征服“轮船克星”?
163 0
|
程序员 人工智能
|
机器学习/深度学习 人工智能 自然语言处理
注水、占坑、瞎掰:起底机器学习学术圈的那些“伪科学”
一边是今年的NIPS迎来了创纪录的8000多篇投稿,一边是李飞飞、Keras框架的作者François Chollet等大佬摊手承认,机器学习发展已进入瓶颈期。
1238 0

热门文章

最新文章