【导读】:谁该上头条?如何从成千上万条信息中准确定位最有价值的热点?这是个不仅让汪峰关心,也让所有媒体编辑头疼的问题。本期创业人物杨绍峰用他的创业公司Zoom Social,给这个难题提供了一个基于大数据运算的科学解答。大数据文摘原点栏目组本期与Zoom Social 的创始人– 杨绍峰交流,并跟大家分享他的创业故事以及Zoom Social的成长历程。
奥斯丁的意外发现
在奥斯丁小城一所酒吧里看到“twitter最热照片墙”的时候,杨绍峰有了新的发现。当时的他刚刚意识到自己研发了近三年的实时地点定位和预测产品并不容易推广,这片照片墙让他感到,自己的产品在社交媒体这个崭新的领域应该会有更好的应用。
杨绍峰此时正身处全球最大音乐、电影和媒体互动盛典SXSW(South by Southwest)现场,在一个完全陌生的城市,他跟所有初来咋到的探索者一样,急切的想要了解这个城市最热的话题:哪个酒吧有最酷炫的爬梯,哪个广场有最Pop的摇滚歌手献唱,哪个会场有最精彩的讲演。小酒吧的照片墙让他意识到,Twitter这样的社交媒体中的热点话题能够引导人们找到这些问题的最佳答案。
自媒体时代,人人都是记者,像Twitter,Facebook这样的社交媒体更成为了巨大的信息集散地。社交媒体信息的发布基于时间、地点,像一片巨大的网络,能够实现传统媒体无法想像的及时更新。但是,如何从这片网络中准确捕捉到最多人关注的热点信息?杨绍峰决定利用自己一直研究的数据存储和实时定位技术解决这个问题,为这些“大众记者”提供一个崭新的平台。
杨绍峰进一步思考,每个人的社交软件可以更新诸多地理方位,如果能知道周边的实时情况,进行数据分析,就可以了解人们的兴趣点在哪里。过去的Internet时代可以从Cookie中获取用户的兴趣爱好,从而推送有针对性的广告。到了App时代,兴趣爱好就可以从公开的社交信息中推测出来。于是,杨绍峰决定做一款类似社交地图(Social Map)的针对O2O的产品。他希望这款产品能够告诉用户这个世界的任何地点此刻最受欢迎的话题是什么。ZoomSocial 从此诞生了!
蹒跚创业
Zoom Social并不是杨绍峰创业的第一次尝试,09年至10年的时候,杨绍峰开发了一个实时跟踪定位的应用。在这个应用的基础上进一步研发出了一个可以流水式跟踪有成百上千人的群组的实时跟踪系统。11年底,杨绍峰回到北京开始全职创业,全身心的投入使得这个软件的技术发展到很高的水准和复杂度,能够高效率高精度的定位用户地点和预测用户常去的地方。但是由于隐私保护的问题,杨绍峰发现多数用户并不像自己那样愿意将自己的位置暴露给别人。因此这个应用的使用人数很少,最终也没有能够正式得以发布。
尽管如此,杨绍峰还是收获了很多,包括研发成功了基于定位(位置信息)的实时数据处理引擎(Locationbased Real Time Big Data Processing Engine)。杨绍峰在此基础上产生了两个想法:(1)将这个应用保留以等待合适的时机发布。例如,在车联网的时代里,这个应用一定会有用武之地。(2)在已经开发的技术的基础上寻找新的应用。Zoom social正是在这样一个数据分析引擎的基础上创立的。
小到五米之内,大到全世界
现今市场上对于地理定位的大数据信息的采集和分析多数是构建在Hadoop上的。但是,正如大家所知,基于批量工作(Batch Job)的传统Hadoop在分析数据时无法具备实时性。通常人们需要等待一段时间才能出分析结果。因此传统的Hadoop并不适合分析、展示社交媒体实时发生的事情。为了解决这个问题,Zoom Social使用了自行设计的包含内存计算,异步通讯和实时流处理等的Hadoop大数据平台。并且为了更好的与实际地理位置结合,还推出一个基于网格分析的动态地图引擎(Dynamic Map Engine)。
在传统地图工具的帮助下,人们可以看见周边发生的事情及讨论,但却很难看到全城、全州或全国的数据。原因是在大范围内有太多地理位置的网格,导致数据量过大,难以进行实时处理,因此任何现存的地图都只能查看周边地区。另外,一些号称“最快”的利用地理定位大数据做分析的公司所运用的模式实际上是将很多很小的batch job累计起来处理结果,因此理论上并不可能做到实时。而ZoomSocial则通过使用自己设计的大数据处理平台和动态地图引擎,在设计理念上就彻底改变了这一现象,可进行与前期设计相比没有任何延迟的真正意义上的实时分析,从而在不同地域范围内同时处理多项请求。
为了更加形象的描述Zoom Social如何利用机器学习加地点定位对数据进行分析,杨绍峰举了一个形象的例子。假设某人发了一条Twitter:我和Steve Jobs正在天安门吃着烤鸭。Zoom Social在得到了这一条信息后,即迅速将关键字:Steve Jobs,天安门,烤鸭,提取出来,然后在小范围(本地)或大范围(全国)地区内进行搜索,统计多少人对这些关键字进行讨论,以及讨论的人的社交影响力。然后对这些话题、信息以及信息发布人按受欢迎的程度进行排序,从而分析出该区域内最受欢迎的话题和人,并将这些话题和人向用户进行推送。
Zoom Social目前已经实现了Twitter,的海量数据整合,并开始了Instagram 和 Facebook 的数据整合的海量数据整合。自去年 12月起, 每天在北美 4 个trillion级的地区上实时处理20M的Twitter信息。Zoom Social基于地理位置及基于机器学习进行实时分析,小到5米之内,大到全世界的可搜索话题都可以被覆盖。
将社交媒体的大海放进了鱼缸
杨绍峰说,他希望最后能够通过Zoom Social帮助用户重塑社交习惯。使用Zoom Social可以看到周围发生的最热门的事情,而不只是传统社交网络中自己的朋友分享的内容。现在弱社交中的重要的一个特点是从人到内容,我们希望通过Zoom Social实现从内容到人。
杨绍峰认为在社交网络时代,每个社交网络就像江河(比如Twitter、Facebook都是不同的河流),这些河流最终都会奔腾入海。对于使用社交软件的个人来说,他们只是在河边取一瓢水,没有人看到大海是什么样的。Zoom Social希望将社交媒体这片大海放进了鱼缸,用户可以从不同角度去揣摩、观察,从而渗透入大海里面任何细小的地方,从大数据(big data)到微数据(microdata)。用户不仅能看到哪些照片或话题是流行的,还可以看到具体是什么人去讨论这些流行的照片、话题。这恰恰是传统社交软件无法做到的。
原文发布时间为:2015-04-16
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号