PostgreSQL 相似文本检索与去重 - (银屑病怎么治?银屑病怎么治疗?银屑病怎么治疗好?银屑病怎么能治疗好?)

  1. 云栖社区>
  2. 阿里云数据库ApsaraDB>
  3. 博客>
  4. 正文

PostgreSQL 相似文本检索与去重 - (银屑病怎么治?银屑病怎么治疗?银屑病怎么治疗好?银屑病怎么能治疗好?)

德哥 2018-04-18 19:35:31 浏览1457
展开阅读全文

标签

PostgreSQL , 相似字符串 , 全文检索 , 去重 , 相似问题 , 医疗 , plr , plpython , madlib , 文本处理


背景

在云栖社区的问答区,有一位网友提到有一个问题:

表里相似数据太多,想删除相似度高的数据,有什么办法能实现吗?  
例如:  
银屑病怎么治?  
银屑病怎么治疗?  
银屑病怎么治疗好?  
银屑病怎么能治疗好?  
等等  

解这个问题的思路

1. 首先如何判断内容的相似度,PostgreSQL中提供了中文分词,pg_trgm(将字符串切成多个不重复的token,计算两个字符串的相似度) .

对于本题,我建议采取中文分词的方式,首先将内容拆分成词组。

2. 在拆分成词组后,首先分组聚合,去除完全重复的数据。

3. 然后自关联生成笛卡尔(矩阵),计算出每条记录和其他记录的相似度。相似度

网友评论

登录后评论
0/500
评论
德哥
+ 关注
所属云栖号: 阿里云数据库ApsaraDB