SR方式挖掘豆瓣热点

简介:

郑昀@玩聚SR 20090430

无意中看到M Jia在《豆瓣好友热点 v0.2.3》中提及:

“以前很喜欢看Techmeme/Digg这样的聚合/社区工具,现在超级喜欢Hacker News和Reddit Programming,简洁又超级有活力(虽然我不太能参乎进去,呵呵),如果能够使用玩聚SR的方式来作豆瓣上的“物”并加上豆瓣原来就有的社区,可以非常简洁并有活力,我会非常喜欢,不过我代表不了广大用户。”

顺着他的这个思路,那么如何一步一步做呢:

case:豆瓣热点
  • 步骤
    • 找到豆瓣上的核心用户,给予一定权重
    • 根据douban-python-API获取这些核心用户的所有朋友
    • 判断这些用户的最新活动时间,如果最近一星期内有更新,则加入到监测
    • 为之分门别类建立Group,以便按照兴趣打包订阅
    • 获取所有监测用户的广播,这是公开的
    • 汇总所有监测用户的推荐,一个推荐或提及就代表投了一票
      • site
      • recommendation
        • 看过
        • 想看
    • 设定一个投票上榜的最低阈值
    • 参考玩聚SR 的SRRank公式(SRRank=log10Z+ts/45000),设定自己排序规则
    • 为每一个Group都生成对应的热点榜单
    • 如果热点是电影或音乐,到VeryCD搜索获取对应的下载项
  • mashup
  • 缺点
    • 豆瓣的数据很零散,长尾太长,难以发现与时俱进的、有效的What's Hot
    • 顶多也就是被人回应比较多的Item
    • 甚至未见得最终挖掘效果比得过豆瓣电影首页的效果
    • 多数人都是想读想看看过之类的信息,用到“推荐”功能的不多
    • 豆瓣API有访问频次限制,小心别被block
目录
相关文章
|
7月前
|
存储 缓存 开发工具
AppsFlyer 研究(五)延迟深度链接&客户端获取归因数据
AppsFlyer 研究(五)延迟深度链接&客户端获取归因数据
348 0
|
3小时前
|
数据采集 前端开发 数据挖掘
Fizzler库+C#:从微博抓取热点的最简单方法
本文介绍如何使用Fizzler库和C#构建微博热点信息爬虫。通过Fizzler的CSS选择器定位关键信息,提取热点标题和排名,实现微博内容的智能挖掘。示例代码展示单线程和多线程采集方法,并涉及代理IP使用。
Fizzler库+C#:从微博抓取热点的最简单方法
|
3小时前
|
前端开发
R语言实现随机前沿分析SFA、数据包络分析DEA、自由处置包分析FDH和BOOTSTRAP方法
R语言实现随机前沿分析SFA、数据包络分析DEA、自由处置包分析FDH和BOOTSTRAP方法
|
3小时前
|
监控 安全 定位技术
技术写作概述:内容分析、平台和转化追踪以及内容老化
内容分析是一种技术作家用来解释和量化文本数据的研究方法。它涉及从不同来源的文本中编码和识别主题或模式的系统过程,这些来源包括书籍、博客、文章或其他文档类型。其主要目标是提供主观解释的、但有效且可重复的、从数据中得出的推论。这种技术有助于确定所讨论的内容是否有效地传达了所需的交流,或者是否存在需要改进的领域。例如,您可以进行内容分析来衡量软件手册的用户友好性或教学指南的清晰性和易懂性。
41 0
|
3小时前
|
自然语言处理 数据挖掘
2020微博热点数据简析,附完整数据文件下载!
2020微博热点数据简析,附完整数据文件下载!
|
10月前
|
JavaScript 前端开发 开发工具
如何做到一站检索前沿主流 AIGC / GPT 文章?定时任务抓取文章!
如何做到一站检索前沿主流 AIGC / GPT 文章?定时任务抓取文章!
247 0
豆瓣评分9.8!阿里内部的分布式架构手册让多少人突破了瓶颈?
没有家族和宗门的帮助,多少天才卡在分布式境界不善而终,今日吾打破自身枷锁,领悟分布式系统法则,突破此境界
豆瓣评分9.8!阿里内部的分布式架构手册让多少人突破了瓶颈?
|
机器学习/深度学习 SQL 分布式计算
图解大数据 | 使用Spark分析挖掘音乐专辑数据@综合案例
文娱影音是目前大数据与AI应用最广泛的场景之一,本案例以音乐专辑发行数据为背景,讲解使用pyspark对HDFS存储的数据进行处理数据分析的过程,并且对分析结果做了可视化呈现。
4526 3
图解大数据 | 使用Spark分析挖掘音乐专辑数据@综合案例
|
自然语言处理 搜索推荐 算法
亿级用户的平台是如何使用词嵌入来建立推荐系统的
亿级用户的平台是如何使用词嵌入来建立推荐系统的
101 0
亿级用户的平台是如何使用词嵌入来建立推荐系统的
|
存储 缓存 NoSQL
每日一面 - Redis程序设计中,上百万的新闻,如何实时展示最热点的top10条呢
每日一面 - Redis程序设计中,上百万的新闻,如何实时展示最热点的top10条呢
每日一面 - Redis程序设计中,上百万的新闻,如何实时展示最热点的top10条呢