来自大数据的反思:需要你读懂的10个小故事(一)

  1. 云栖社区>
  2. 博客>
  3. 正文

来自大数据的反思:需要你读懂的10个小故事(一)

玉來愈宏 2016-07-15 15:45:41 浏览3952 评论0

摘要: 摘要:随着各种技术发展,很多人都在吹捧大数据。然而如同股市一样,越是高涨,越是需要警醒,在大数据热火朝天前行的路上,多一点反思,多一份冷静,或许能让这路走的更好、更远。本文的10个小故事,或许能让你有所得。

【编者按】这是近一年前<2015-07-28>发表于CSDN的文章这里归集此处仅作存档。




2011年以来大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑大数据已然成为继云计算、物联网之后新一轮的技术变革热潮不仅是信息领域经济、政治、社会等诸多领域都“磨刀霍霍”向大数据准备在其中逐得一席之地。

中国工程院李国杰院士更是把大数据提升到战略的高度他表示【1】数据是与物质、能源一样重要的战略资源。从数据中发现价值的技术正是最有活力的软技术在数据技术与产业上的落后将使我们像错过工业革命机会一样延误一个时代。

在这样的认知下“大数据”日趋变成大家“耳熟能详”的热词。图1所示的是谷歌趋势Google Trends显示的有关大数据热度的趋势从图1中可以看到在未来的数年里“大数据”的热度可能还是“高烧不退”图1中虚线为未来趋势。

55b6ca863440e.jpg

图1 大数据趋势图片来源作者截图

在大数据热火朝天前行的路上多一点反思多一份冷静或许能让这路走的更好、更远例如2014年4月大名鼎鼎的《纽约时报》发表题为《大数据带来的八个不是九个问题》Eight (No, Nine!) Problems With Big Data”的反思文章【2】其中文中的第九个问题就是所谓的“大数据的炒作we almost forgot one last problem: the hype”。同样为重量级的英国报刊《财经时报》Financial TimesFT也刊发了类似反思式的文章“大数据我们正在犯大错误吗Big data: are we making a big mistake?【3】

在大数据热炒之中大数据的价值是否被夸大了是否存在人造的“心灵鸡汤”大数据技术便利带来的“收之桑榆”是否也存在自己的副作用——“失之东隅”——个人的隐私何以得到保障大数据热炒的“繁华过尽”,数据背后的巨大价值是否还能“温润依旧”在众声喧哗之中我们需要冷静审慎地思考上述问题。

太多的“唐僧式”的说教会让很多人感到无趣。下文分享了10个从“天南地北”收集而来的小故事或称段子从这些小故事中可对热炒的大数据反思一下这或许能让读者更加客观地看待大数据。有些小故事与结论之间的对应关系或许不是那么妥帖诸位别太较真读一读、乐一乐、想一想就好

故事01大数据都是骗人的啊——大数据预测得准吗

从前有一头不在风口长大的猪。自打出生以来就在猪圈这个世外桃源里美满地生活着。每天都有人时不时地扔进来一些好吃的东西小猪觉得日子惬意极了高兴任性时可在猪圈泥堆里打滚耍泼。忧伤时可趴在猪圈的护栏上看夕阳西下春去秋来岁月不争。“猪”生如此夫复何求
根据过往数百天的大数据分析小猪预测未来的日子会一直这样“波澜不惊”地过下去直到它从小猪长成肥猪……在春节前的一个下午一次血腥的杀戮改变了猪的信念尼玛大数据都是骗人的啊……惨叫嘎然而止。

55b6caa40e23e.jpg

图2 大数据预测都是骗人的

这则“人造寓言”是由《MacTalk·人生元编程》一书作者池建强先生“杜撰”而成的【4】。池先生估计是想用这个搞笑的小寓言“黑”一把大数据。

我们知道针对大数据分析无非有两个方面的作用1面向过去发现潜藏在数据表面之下的历史规律或模式称之为描述性分析Descriptive Analysis2面向未来对未来趋势进行预测称之为预测性分析Predictive Analysis。把大数据分析的范围从“已知”拓展 到了“未知”从“过去” 走向 “将来”这是大数据真正的生命力 和“灵魂” 所在。

那头“悲催”的猪之所以发出“大数据都是骗人的啊”呐喊是因为它的得出了一个错误的“历史规律”根据以往的数据预测未来它每天都会过着“饭来张口”的猪一般的生活。但是没想到会发生“黑天鹅事件”——春节的杀猪事件。

黑天鹅事件Black Swan Event) 通常是指难以预测的但影响甚大的事件一旦发生便会引起整个局面连锁负面反应甚至颠覆。读者可阅读纳西姆·尼古拉斯·塔勒布Nassim Nicholas Taleb所著的畅销书《黑天鹅》来获得对“黑天鹅事件”更多的理解。

其实我们不妨从另外一个角度来分析一下这个搞笑的小寓言在“黑”大数据时也有失败的地方。通过阅读知道舍恩伯格教授在其著作《大数据时代》的第一个核心观点就是大数据即全数据即n=All这里n为数据的大小其旨在收集和分析与某事物相关的“全部”数据而非仅分析“部分”数据。

那头小猪仅仅着眼于分析它“从小到肥”成长数据——局部小数据而忽略了“从肥到没”的历史数据。数据不全结论自然会偏预测就会不准。

要不怎么会有这样的规律总结呢“人怕出名猪怕壮”。猪肥了,很容易先被抓来杀掉。这样的“猪”血泪史天天都上演的还少吗上面的小寓言其实是告诉我们数据不全不仅坑爹还坑命啊

那么问题来了大数据等于全数据即n=All能轻易做到吗

故事02颠簸的街道——对不起“n=All”只是一个幻觉

波士顿市政府推荐自己的市民使用一款智能手机应用——“颠簸的街道Street Bump网站访问链接http://www.streetbump.org/”。这个应用程序可利用智能手机中内置的加速度传感器来检查出街道上的坑洼之处——在路面平稳的地方传感器加速度值小而在坑坑洼洼的地方传感器加速度值就大。热心的波士顿市民们只要下载并使用这个应用程序后开着车、带着手机他们就是一名义务的、兼职的市政工人这样就可以轻易做到“全民皆市政”。市政厅全职的工作人员就无需亲自巡查道路而是打开电脑就能一目了然的看到哪些道路损坏严重哪里需要维修如图3所示。

55b6cabc69c52.jpg

图3 颠簸的街道 图片来源作者截图

波士顿市政府也因此骄傲地宣布“大数据为这座城市提供了实时的信息它帮助我们解决问题并提供了长期的投资计划”。著名期刊《连线》Wired也毫不吝啬它的溢美之词【5】这是众包Crowdsourcing改善政府功能的典范之作。

众包是《连线》杂志记者Jeff Howe于2006年发明的一个专业术语用来描述一种新的商业模式。它以自由自愿的形式外包给非特定的大众网络的做法。众包利用众多志愿员工的创意和能力——这些志愿员工具备完成任务的技能愿意利用业余时间工作满足于对其服务收取小额报酬或者暂时并无报酬仅仅满足于未来获得更多报酬的前景。

然而从一开始“颠簸的街道”的产品设计就是有偏的bias因为使用这款App的对象“不经意间”要满足3个条件1年龄结构趋近年轻因为中老年人爱玩智能手机的相对较少2使用App的人还得有一部车。虽然有辆车在美国不算事但毕竟不是每个人都有3有钱还得有闲。前面两个条件这还不够使用者还得有“闲心” 想着开车时打开“颠簸的街道”这个App。想象一下很多年轻人的智能手机安装的应用程序数量可能两位数以上除了较为常用的社交软件如Facebook或Twitter中国用户用得较多的是微博、微信等记得开机运行外还有什么公益软件“重要地”一开车就记得打开

“颠簸的街道”的理念在于它可以提供 “n=All所有”个坑洼地点信息 但这里的“n=All所有”也仅仅是满足上述3个条件的用户记录数据而非“所有坑洼点”的数据上述3个条件每个条件其实都过滤了一批样本“n=All”注定是不成立的。在一些贫民窟可能因为使用手机的、开车的、有闲心的App用户偏少即使有些路面有较多坑洼点也未必能检测出来。

《大数据时代》的作者舍恩伯格教授常用“n=All”来定义大数据集合。如果真能这样那么就无需采样了也不再有采样偏差的问题因为采样已经包含了所有数据。

畅销书《你的数字感走出大数据分析与解读的误区》Numbersense: How to Use Big Data to Your Advantage的作者、美国纽约大学统计学教授Kaiser Fung就毫不客气地提醒人们不要简单地假定自己掌握了所有有关的数据 “N=All所有”常常仅仅是对数据的一种假设而不是现实。

微软-纽约首席研究员Kate Crawford也指出现实数据是含有系统偏差的通常需要人们仔细考量才有可能找到并纠正这些系统偏差。大数据看起来包罗万象但“n=All”往往不过是一个颇有诱惑力的假象而已。

“n=All”,梦想很丰满但现实很骨感

但即使具备全数据就能轻易找到隐藏于数据背后的有价值信息吗请接着看下面的故事。

故事03醉汉路灯下找钥匙——大数据的研究方法可笑吗

一天晚上一个醉汉在路灯下不停地转来转去警察就问他在找什么。醉汉说我的钥匙丢了。于是警察帮他一起找结果路灯周围找了几遍都没找到。于是警察就问你确信你的钥匙是丢到这儿吗醉汉说不确信啊我压根就不知道我的钥匙丢到哪儿。警察怒从心中来问那你到这里来找什么醉汉振振有辞因为只有这里有光线啊

55b6cb75afa3d.jpg

图4 醉汉路灯下找钥匙图片来源经济学人

这个故事很简单看完这个故事有人可能会感叹醉汉的“幼稚”、“可笑”。但不好笑的是“乌鸦笑猪黑自己不觉得”这个故事也揭示了一个事实在面临复杂问题时我们的思维方式也常同这个醉汉所差无几同样也是先在自己熟悉的范围和领域内寻找答案哪怕这个答案和自己的领域“相隔万里”

还有人甚至认为醉汉找钥匙的行为恰恰就是科学研究所遵循的哲学观。前人的研究成果恰是是后人研究的基石也即这则故事中的“路灯”。到路灯下找钥匙虽看来有些荒唐但也是“无奈之下”的明智之举。

数据那么大价值密度那么低你也可以去分析但从何分析起首先想到的方法和工具难道不是当下你最熟悉的而你最熟悉的就能确保它就是最好的吗

沃顿商学院著名教授、纽约时报最佳畅销书作者乔纳伯杰Jonah Berger从另外一个角度解读这个故事【6】在这里浩瀚的黑夜就是如同全数据“钥匙”就好比是大数据分析中我们要找到的价值目标他认为“路灯”就好比我们要达到这个目标的测量“标尺”如果这个标尺的导向有问题顺着这个标尺导引想要找到心仪的“钥匙”是非常困难的在我们痴迷于某项自己熟悉的特定测量标尺之前一定要提前审视一下这个测量标尺是否适合帮助我们找到那把“钥匙”如果不能赶快换一盏“街灯”吧

如果在黑暗中丢失的钥匙是大数据中的价值那这个价值也太稀疏了吧。下面的故事让我们聊聊大数据的价值。

故事04园中有金不在金——大数据的价值 

人们在描述大数据时通常表明其具备4个V特征即4个以V为首字母的英文描述Volume体量大、Variety模态多、Velocity速度快及Value价值大。前三个V本质上是为第四个V服务的。试想一下如果大数据里没有我们希望得到的价值我们为何还辛辛苦苦这么折腾前3个V

英特尔中国研究院院长吴甘沙先生说“鉴于大数据信息密度低大数据是贫矿投入产出比不见得好。”《纽约时报》著名科技记者Steve Lohr在其采访报道“大数据时代The Age of Big Data”中表明7大数据价值挖掘的风险还在于会有很多的“误报”发现用斯坦福大学统计学教授Trevor Hastie的话来说就是“在数据的大干草垛中发现有意义的“针”其困难在于“很多干草看起来也像针The trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles”

针对大数据的价值李国杰院士借助中国传统的寓言故事《园中有金》从另外一个角度说明大数据的价值寓言故事是这样的8

有父子二人居山村营果园。父病后子不勤耕作园渐荒芜。一日父病危谓子曰园中有金。子翻地寻金无所得甚怅然。是年秋园中葡萄、苹果之属皆大丰收。子始悟父言之理。

人们总是期望能从大数据中挖掘出意想不到的“大价值”。可李国杰院士认为8实际上大数据的价值主要体现在它的驱动效应上大数据对经济的贡献并不完全反映在大数据公司的直接收入上应考虑对其他行业效率和质量提高的贡献。

大数据是典型的通用技术理解通用技术的价值要懂得采用“蜜蜂模型”蜜蜂的最大效益并非是自己酿造的蜂蜜而是蜜蜂传粉对农林业的贡献——你能说秋天的累累硕果没有蜜蜂的一份功劳

回到前文的小故事儿子翻地的价值不仅在于翻到园中的金子更是在于翻地之后促进了秋天果园的丰收。在第03个小故事中醉汉黑暗中寻找的钥匙亦非最终的价值通过钥匙打开的门才是。

对于大数据研究而言一旦数据收集、存储、分析、传输等能力提高了即使没有发现什么普适的规律或令人完全想不到的新知识也极大地推动了诸如计算机软硬件、数据分析等行业的发展大数据的价值也已逐步体现。

李国杰院士认为我们不必天天期盼奇迹出现多做一些“朴实无华”的事实际的进步就会体现在扎扎实实的努力之中。一些媒体总喜欢宣传一些抓人眼球的大数据成功案例。但从事大数据行业的人士应保持清醒的头脑无华是常态精彩是无华的质变。

如果把“大数据”比作农夫父子院后的那片土地那么土地的面积越大会不会能挖掘出的“金子”就越多呢答案还真不是下面的故事我们说说大数据的大小之争。

故事05盖洛普抽样的成功——大小之争“大”数据一定胜过小抽样吗

1936年民主党人艾尔弗雷德兰登Alfred Landon与时任总统富兰克林·罗斯福Franklin Roosevelt竞选下届总统。《文学文摘》The Literary Digest这家颇有声望的杂志承担了选情预测的任务。之所以说它“颇有声望”是因为《文学文摘》曾在1920年、1924年、1928年、1932年连续4届美国总统大选中成功地预测总统宝座的归属。
1936年《文学文摘》再次雄赳赳、气昂昂地照办老办法——民意调查不同于前几次的调查这次调查把范围拓展得更广。当时大家都相信数据集合越大预测结果越准确。《文学文摘》计划寄出1000万份调查问卷覆盖当时四分之一的选民。最终该杂志在两个多月内收到了惊人的240万份回执在统计完成以后《文学文摘》宣布艾尔弗雷德兰登将会以55比41的优势击败富兰克林·罗斯福赢得大选另外4%的选民则会零散地投给第三候选人。
然而真实的选举结果与《文学文摘》的预测大相径庭罗斯福以61比37的压倒性优势获胜。让《文学文摘》脸上挂不住的是新民意调查的开创者乔治·盖洛普George Gallup仅仅通过一场规模小得多的问卷——一个3000人的问卷调查得出了准确得多的预测结果罗斯福将稳操胜券。盖洛普的3000人“小”抽样居然挑翻了《文学文摘》240万的“大”调查实在让专家学者和社会大众跌破眼镜。

显然盖洛普有他独到的办法而从数据体积大小的角度来看“大”并不能决定一切。民意调查是基于对投票人的大范围采样。这意味着调查者需要处理两个难题样本误差和样本偏差。

在过去的200多年里统计学家们总结出了在认知数据的过程中存在的种种陷阱如样本偏差和样本误差。如今数据的规模更大了采集的成本也更低了“大数据”中依然存在大量的“小数据”问题大数据采集同样会犯小数据采集一样的统计偏差【3】我们不能掩耳盗铃假装这些陷阱都已经被填平了事实上它们还都在甚至问题更加突出。

盖洛普成功的法宝在于科学地抽样保证抽样的随机性他没有盲目的扩大调查面积而是根据选民的分别特征根据职业、年龄、肤色等在3000人的比重再确定电话访问、邮件访问和街头调查等各种方式所在比例。由于样本抽样得当就可以做到“以小见大”、“一叶知秋”。

《文学文摘》的失败在于取样存在严重偏差它的调查对象主要锁定为它自己的订户。虽然《文学文摘》的问卷调查数量不少但它的订户多集中在中上阶层样本从一开始就是有偏差的sample bias因此推断的结果不准就不足为奇了。而且民主党人艾尔弗雷德兰登的支持者似乎更乐于寄回问卷结果这使得调查的错误更进了一步。这两种偏差的结合注定了《读者文摘》调查的失败。

我们可以类比一下《文学文摘》的调查模式试想一样如果在中国春运来临时在火车上调查问乘客是不是买到票了即使你调查1000万人这可是大数据啊结论毫无意外地是都买到了但这个结果无论如何都是不科学的因为样本的选取是有偏的。

当然采样也是有缺点的如果采样没有满足随机性即使百分之几的偏差就可能丢失“黑天鹅事件”的信号因此在全数据集存在的前提下全数据当然是首选但从第02故事中我们可以看到全数据通常是无法得到的。对针对数据分析的价值英特尔中国研究院院长吴甘沙先生给出了一个排序全数据>好采样数据>不均匀的大量数据。

大数据分析技术运用得当能极大地提升人们对事物的洞察力insight但技术和人谁在决策decision-making中起更大作用在下面的“点球成金”小故事我们聊聊这个话题。


【参考文献】

参考文献部分链接
[1] 湖北日报.李国杰大数据刚刚过了炒作的高峰期.  ,2015-3-30
[2]Gary Marcus and Ernest Davis. Eight (No, Nine!) Problems With Big Data. New York Times.  6, 2014
[3] Tim Harford. Financial Times. Big data: are we making a big mistake? . March 28, 2014
[4]池建强. 大数据都是骗人的啊.北京青年报
[5] Phil Simon. Potholes and Big Data: Crowdsourcing Our Way to Better Government.Wried
[6] Jonah Berger. Is Little Data The Next Big Data? .
[7] Steve Lohr. New York Times
[8] 李国杰. 对大数据的再认识[J]. 大数据, 2015, 1(1): 2015001.



【作者简介】张玉宏著有《品味大数据》一书。


来自大数据的反思需要你读懂的10个小故事二


【云栖快讯】一站式开发者服务,海量学习资源免费学  详情请点击

网友评论