大数据workshop：《云数据·大计算：海量日志数据分析与应用》之《社交数据分析：好友推荐》篇-阿里云开发者社区

大数据workshop：《云数据·大计算：海量日志数据分析与应用》之《社交数据分析：好友推荐》篇

2017-03-21 6514

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本手册为云栖大会Workshop《云计算·大数据：海量日志数据分析与应用》的《社交数据分析：好友推荐》篇而准备。主要阐述如何在大数据开发套件中使用MR实现好友推荐。

大数据workshop：《云数据·大计算：海量日志数据分析与应用》之《社交数据分析：好友推荐》篇

实验背景介绍

了解更多2017云栖大会·成都峰会 TechInsight & Workshop.

本手册为云栖大会Workshop《云计算·大数据：海量日志数据分析与应用》的《社交数据分析：好友推荐》篇而准备。主要阐述如何在大数据开发套件中使用MR实现好友推荐。

MapReduce应用场景

搜索：网页爬取、倒排索引、PageRank；
Web访问日志分析：分析和挖掘用户在web上的访问、购物行为特征，实现个性化推荐；
文本统计分析：比如莫言小说的WordCount、词频TFIDF分析；学术论文、专利文献的引用分析和统计；
海量数据挖掘：非结构化数据、时空数据、图像数据的挖掘；
机器学习：监督学习、无监督学习、分类算法如决策树、SVM等；
自然语言处理：基于大数据的训练和预测；基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等；
广告推荐：用户点击（CTR)和购买行为（CVR）预测。

涉及大数据产品

大数据开发套件

好友推荐MapReduce算法分析

现在，社交网络已经成为影响力巨大的信息平台，社交网站中，用户可以通过“你可能感兴趣的人”途径增加交友方式。“你可能感兴趣的人”也称作“好友推荐”，它主要是通过查找两个非好友之间的共同好友情况来实现的。下面，将通过一个例子，简单介绍通过MapReduce的方式实现好友推荐功能。

例如：A,B,C,D,E五个人的好友关系如下图，其中实线表示互为好友关系。那么，如何获取两个不是好友的两个人之间的好友数？并以此为参考，进行对用户推荐陌生人。

首先，将好友关系分配到两个Map进行处理，其中每个Map包含3条好友关系。对每一条好友关系进行拆分，若Key中的两个人为朋友，则记录value值为0，否则value值为1。将拆分的结果进行排序，其中（A B）和（B A）作为同一个key（A B）。

然后，将分别对两个Map处理的记录进行初步合并，若两个记录的Key值相同且每条记录的Value都不为0，则Value值加1。注意：在Combine阶段，必须保留Value为0的记录，否则，在Reduce阶段，获取的结果会出错。

最后，通过Reduce方式，合并两个Map处理的Combine结果。首先，若两个记录的Key值相同且每条记录的Value都不为0，则Value值加1；然后，将Value值为0的记录删除；最后，获取不为好友的两个用户之间的公共好友数：Key为两个不为好友的用户，Value是两个不是好友的用户之间的共同好友数。社交网站或者APP可以根据这个数值对不是好友的两个用户进行推荐。

实验详情

下载实验数据

点击下载实验数据：friends_in_data.csv和MR jar包：friends_mr.jar至本地。

进入大数据开发套件

确保阿里云账号处于登录状态。

step1：点击进入大数据开发套件项目列表。

项目列表

step2：点击已经创建的项目空间名称，进入大数据开发套件。

点击进入项目

进入大数据开发套件

新建数据表

继上实验《数据采集：日志数据上传》和《数据加工：用户画像》中已经新建脚本文件，可以直接切换至脚本开发tab下，双击打开create_table_ddl脚本文件。若无新建脚本文件可通过如下详细步骤进行创建脚本文件。

附建表SQL

drop table if exists dual;--创建系统dual
create table dual(id bigint);--如project中不存在此伪表，则需创建并初始化数据

insert overwrite table dual select count(*)from dual;--向系统伪表初始化数据

---创建好友推荐MR的数据输入表.其中uid表示某个用户;friends表示uid用户的好友
create table friends_in (uid string, friends string);

---创建好友推荐MR的数据输出表.其中userA表示某个用户;userB表示不是userA的用户,cnt表示userA和userB之间的共同好友数。
create table friends_out (userA string, userB string, cnt bigint);

导入本地数据

step1：完成输入和输出表的创建后，点击顶部功能栏中的导入，导入本地数据。然后，打开本地保存的文件friends_in_data.csv（点击本小节顶部的附件名“friends_in_data.csv” ，下载本次实验的测试数据）。

选择导入本地数据

step2：所有配置均设为默认，并查看导入的数据。完成后，点击下一步。

注意：在真实的工作环境中，数据必须以txt或csv的文件类型导入。

本地数据导入框

step3：在本地数据导入的页面的“导入至表”中，输入friends_in，也就是将本次实验的测试数据，导入到好友推荐的输入表friends_in中。确定目标字段与源字段匹配。完成后点击导入。开始执行导入操作。由于数据量较大，请等待1-2分钟。

本地数据导入2

step4：完成表数据导入后，页面会自动退出导入界面。点击页面左侧栏中的表查询tab页，双击打开表friends_in。然后，点击数据浏览，就可以快速查看friends_in表中存
储的数据。若显示的数据与文件 friends_in_data.csv数据相同，则证明本次实验的测试数据导入成功。

数据预览

添加MR资源

step1：点击最左侧栏中的资源管理，然后在左侧栏的资源管理列表的顶部，点击最右侧的第一个图标上传资源，开始配置上传资源信息。

资源管理

step2：在弹出的对话框中，配置如下所示的上传资源信息。完成后，点击提交，将本地的好友推荐Jar包上传到Data IDE环境中。

资源上传

在页面左侧的资源管理下，可以查看到上传成功的Jar包friends_mr.jar

确认资源

测试并验证好友推荐

step1：点击页面顶层栏中的新建，新建任务，开始创建本次实验的MR任务。

新建任务

step2：在弹出的对话框中，选择新建任务的任务类型为工作流任务，并输入任务名称为friends_odps_mr。默认“调度类型”为“同期调度”。完成后，点击“创建”。

配置任务

step3：此时，右侧页面变为friends_odps_mr的画布，拖右侧节点组件中的OPEN MR到右侧画布的空白位置。

新建mr节点

在画布上，可以查看到一个名称为friends_mr的OPEN MR任务节点。双击，进入MR任务的编辑页面。

MR节点

step4：输入如下配置信息，完成后，点击顶层栏中的保存图标，保存MR任务的配置信息。点击运行，运行本次配置的OPEN MR任务。

配置MR

配置项目说明：

MRJar包：点击文本框，并选择friends_mr.jar

资源：默认设置为friends_mr.jar

输入表：输入friends_in

mapper：输入friends_mr_odps.FriendsMapper,此为Jar包中Mapper的class全名

reducer：输入friends_mr_odps.FriendsReducer，此为Jar包中Reducer的class全名

combiner：输入friends_mr_odps.FriendsCombiner，此为Jar包中Combiner的class全名

输出表：输入friends_out

输出Key：输入userA:String, userB:String

输出Val：输入cnt:Bigint

step5：在底部的日志中，可以查看到运行状态和运行结果。大约40s左右，页面显示“Current task status:FINISH”，表示已运行结束。

运行成功

step6：在上述建表脚本文件中输入如下的SQL命令，并点击运行。查询共同好友超过2个的数据信息。

数据预览SQL

SELECT * FROM friends_out WHERE cnt>2 order by cnt desc limit 100;

恭喜大家完成《云数据·大计算：海量日志数据分析与应用》的Workshop，基于此相信大家也掌握了MaxCompute、大数据开发套件、Quick BI的基本操作，也能够完成自己公司或个人的一些真实需求。关于更多的详细内容，可以点击了解更多阿里云数加。

大数据workshop：《云数据·大计算：海量日志数据分析与应用》之《社交数据分析：好友推荐》篇

大数据workshop：《云数据·大计算：海量日志数据分析与应用》之《社交数据分析：好友推荐》篇

实验背景介绍

MapReduce应用场景

涉及大数据产品

好友推荐MapReduce算法分析

实验详情

下载实验数据

进入大数据开发套件

新建数据表

导入本地数据

添加MR资源

测试并验证好友推荐

大数据计算 MaxCompute

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景