1个好方案,帮你实现复杂数据源中小区信息的准确归一化

  1. 云栖社区>
  2. 闲鱼技术>
  3. 博客>
  4. 正文

1个好方案,帮你实现复杂数据源中小区信息的准确归一化

闲鱼技术 2018-12-12 18:43:36 浏览848
展开阅读全文

闲鱼技术-临耕

背景

小区是租房业务中很重要的信息,它能够反映房源的位置和品质。对租客而言,能否浏览到准确的小区信息是高效找房的关键。因此,收集和展示准确的小区信息是提高用户找房效率的重要方面。为了获得全面的小区信息,租房业务通常会依赖多种数据源获得小区数据,这些数据格式不一,信息杂乱无章,含有很多冗余信息。为了提高找房效率,必须把同一个小区的不同数据聚合到一起并理清小区信息之间的从属关系。本文抓住小区的独有特征并利用相似度算法,设计了一种基于文本匹配的方法来解决这个问题。

目标

现有的小区数据中重复小区很多,比如“福鼎家园”、“福鼎家园晓风苑”、“福鼎家园2幢3单元”、“西溪北苑西区”和“西溪北苑东区”等等。这些小区名虽然不完全一样,但是其中一些表示的同一个小区或者同一小区的子小区,我们把这些小区名叫做同义小区,比如“福鼎家园”、“福鼎

网友评论

登录后评论
0/500
评论
闲鱼技术
+ 关注
所属云栖号: 闲鱼技术