人际图谱:Facebook的数据挖掘功臣

简介:   建立与发展   Facebook的人际图谱团队创立之初的任务是把用户个人信息中的纯文字描述转化成结构化数据。如果没有这样的数据,Facebook就无法实现广告受众定位,也不能帮助你找到高中好友。
0.jpg

  建立与发展

  Facebook的人际图谱团队创立之初的任务是把用户个人信息中的纯文字描述转化成结构化数据。如果没有这样的数据,Facebook就无法实现广告受众定位,也不能帮助你找到高中好友。为了利用用户数据中的各种细节信息,Facebook的工程师们必须建立一个数据集,其中需要包含能够将不同用户之间建立联系的各种信息。工程师们的解决办法是利用维基百科上的现有数据。

  很多用户之间的关联信息无法直接和现有页面建立联系,借助维基百科上的各种条目,Facebook工程师们建立了“数百万个‘回退’页面”,然后手动去除重合和无效的页面。此外,工程师们还需要针对用户信息中的书名和电影名等信息进行手动调整。

  Facebook的人际图谱团队还利用了WordNet数据库等工具分析用户信息,配合用户兴趣数据集向用户推荐好友。比如,在简介中提及“有些朋友会滑雪”的用户会和那些在滑雪运动页面上点“赞”的用户归类到一起。

  

      人际图谱现状

  根据Facebook工程师埃里克·孙(EricSun)的说法,人际图谱如今的增长速度是他们始料未及的。他表示,该团队目前的主要任务是“打造能够不断优化图谱的多分支、可扩展系统”。

  目前,Facebook对用户信息的挖掘已经非常深入。比如,如果你对歌曲“Help”点了赞,Facebook知道创作它的是披头士乐队,它也知道你有哪些好友喜欢披头士。如果你去了某家餐馆,Facebook知道它的位置、用户群体、用户住处。帮助Facebook发掘出如此多的数据的正是人际图谱计划。


原文发布时间为:2013-07-30


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
6月前
|
机器学习/深度学习 算法 数据挖掘
【大数据】数据挖掘工具:发现数据中的宝藏
【大数据】数据挖掘工具:发现数据中的宝藏
68 0
|
8月前
|
数据采集 数据可视化 数据挖掘
数据挖掘微博:爬虫技术揭示热门话题的趋势
微博是中国最大的社交媒体平台之一,每天有数亿用户在上面发表自己的观点、分享自己的生活、参与各种话题。微博上的热门话题反映了用户的关注点和社会的动态,对于分析舆情、预测市场、探索文化等方面都有重要的价值。本文将介绍如何使用爬虫技术从微博上抓取热门话题的数据,并通过可视化的方式展示热门话题的变化趋势。
127 0
数据挖掘微博:爬虫技术揭示热门话题的趋势
|
弹性计算 运维 前端开发
最受欢迎五大技术图谱出炉!看看大佬们都在学什么
阿里云开发者学堂15个技术图谱,哪些最受开发者们喜欢?小助手已经帮你整理出榜单了,快来学习吧!
|
XML Java 大数据
大数据项目实战之新闻话题统计分析
前言:本文是一个完整的大数据项目实战,实时|离线统计分析用户的搜索话题,并用JavaEE工程前端界面展示出来。这些指标对网站的精准营销、运营都有极大帮助。架构大致是按照企业标准来的,从日志的采集、转化处理、实时计算、JAVA后台开发、WEB前端展示,一条完整流程线下来,甚至每个节点都用的高可用架构,都考虑了故障转移和容错性。
3584 0
|
数据挖掘 数据库
《数据挖掘:实用案例分析》——1.4 数据挖掘现状及应用前景
本节书摘来自华章计算机《数据挖掘:实用案例分析》一书中的第1章,第1.4节,作者 张良均 陈俊德 刘名军 陈荣,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1868 0