R语言数据挖掘2.1.1.1 频繁项集

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

R语言数据挖掘2.1.1.1 频繁项集

华章计算机 2017-05-02 09:09:00 浏览1603
展开阅读全文

2.1.1.1 频繁项集


频繁项集的概念来源于真实的购物篮分析。在诸如亚马逊等商店中,存在很多的订单或交易数据。当客户进行交易时,亚马逊的购物车中就会包含一些项。商店店主可以通过分析这些大量的购物事务数据,发现顾客经常购买的商品组合。据此,可以简单地定义零个或多个项的组合为项集。

我们把一项交易称为一个购物篮,任何购物篮都有组元素。将变量s设置为支持阈值,我们可以将它和一组元素在所有的购物篮中出现的次数做比较,如果这组元素在所有购物篮中出现的次数不低于s,我们就将这组元素称为一个频繁项集。

若一个项集包含有k个项,则该项集称为k项集,其中k是非零整数。项集X的支持计数记为support_count(X),表示给定数据集中包含项集X的计数。

给定一个预先定义的最小支持度阈值s,如果support_count(X)≥s,则称项集X为频繁项集。

网友评论

登录后评论
0/500
评论
华章计算机
+ 关注
所属云栖号: 华章计算机