《写给程序员的数据挖掘实践指南》——1.1欢迎来到21世纪

简介:

本节书摘来自异步社区出版社《写给程序员的数据挖掘实践指南》一书中的第1章,第1.1节,作者:【美】Ron Zacharski(扎哈尔斯基),更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.1欢迎来到21世纪

进入21世纪,有限的选择已经成为历史。如果想购买音乐,iTunes提供了1100万首歌曲供你选择。这可是1100万!截止到2011年10月,iTunes已经出售了160亿首歌曲。如果需要更多的选择,那么可以访问Spotify6,它上面有超过1500万首的歌曲可供选择。

image

想买书?亚马逊上有超过200万的书名可供选择。

想看视频?可以有如下多种选择。

image

想买一台笔记本电脑?当在亚马逊网站的搜索框中输入laptop时,会返回3811条结果。

而如果输入rice cooker(电饭锅),则可以得到超过1000条结果。

在不久的将来,我们的选择还会更多:数十亿首在线音乐、大量视频节目以及可以通过3D打印定制的产品,等等。

寻找相关对象
面对这么多选择,问题在于寻找相关对象。在iTunes的所有1100万首歌曲中,我非常喜欢的可能有不少,但是问题在于如何找到这部分歌曲。今晚我想从Netflix上观看一部流媒体视频,那么到底应该看哪一部?我想使用P2P下载一部视频,但是到底应该下载哪一部?并且,上述问题正变得更加糟糕:每分钟都有数T字节的媒体加入到网络中,每分钟Usenet上就有100个新文件,每分钟都有24小时时长的视频上传到YouTube,每小时都有180种新书出版发行。实际上,每天真实世界中都有越来越多的物品可供购买。在所有可选对象组成的“海洋”中,寻找相关对象变得越来越困难。

如果你是媒体制作人,比如马来西亚的季小薇(Zee Avi),那么风险并不在于有人非法下载你的音乐,而在于你自己默默无闻。

但如何寻找对象?
在前面提到的多年以前的小镇上, 我们通过朋友来寻找相关对象。通过朋友,我们知道那款布料的纹样非常符合我们的要求,那本新小说能在书店找到,还有能够在唱片店找到那款 新的33 1/3 LP唱片(黑胶唱片)等。即使今天我们还依赖朋友来寻找相关对象。
image

我们也通过专家来寻找相关内容。多年前Consumer Reports7可以对出售的所有20种型号的洗衣机或者所有10种型号的电饭锅进行评估,从而对顾客进行推荐。现在,在亚马逊网站上有数百种型号的电饭锅,不太可能单个专家就能对所有这些电饭锅进行评级。多年前,Roger Ebert8几乎能够评论所有的影片。但是现在全世界一年会制作大约25000部影片。此外,我们还可以从多个片源来访问影片。不论是Roger Ebert还是任意单个专家,都无法评论我们能观看的所有影片。

我们也使用对象本身的信息来寻找它们。例如,在长达30年的时间里我使用了一台Sears洗衣机,现在我想换另一台Sears洗衣机。我喜欢披头士乐队的某张唱片,那么很可能会购买他们的另一个唱片,这是因为我有很大的可能也会喜欢这个唱片。

上述通过朋友、专家或者对象本身的信息寻找相关对象的方法到今天仍在使用。不过,我们需要一些计算上的辅助才能满足21世纪的要求,因为我们现在有数十亿的选择可能。

本书将会探讨聚合人们的喜好、购买历史及其他数据的方法,也将利用社会网络(朋友)的威力,挖掘出相关的对象。例如,我喜欢Phoenix这个乐队。系统可能知道Phoenix乐队的属性包括使用电声摇滚乐器、有朋克效果、巧妙使用声乐等。于是,它可能向我推荐一个属性相似的乐队,比如The Strokes乐队。

相关文章

热门文章

最新文章