最常使用的数据挖掘算法——决策树

  1. 云栖社区>
  2. 博客>
  3. 正文

最常使用的数据挖掘算法——决策树

子夜初商南 2019-08-04 01:17:33 浏览360
展开阅读全文

决策树(Decision Tree)算法主要用来处理分类问题,是最经常使用的数据挖掘算法之一。

一、决策树 场景

一个叫做 "二十个问题" 的游戏,游戏的规则很简单:参与游戏的一方在脑海中想某个事物,其他参与者向他提问,只允许提 20 个问题,问题的答案也只能用对或错回答。问问题的人通过推断分解,逐步缩小待猜测事物的范围,最后得到游戏的答案。

一个邮件分类系统,大致工作流程如下:

image.png

首先检测发送邮件域名地址。如果地址为 myEmployer.com, 则将其放在分类 "无聊时需要阅读的邮件"中。

如果邮件不是来自这个域名,则检测邮件内容里是否包含单词 "曲棍球" , 如果包含则将邮件归类到 "需要及时处理的朋友邮件", 如果不包含则将邮件归类到 "无需阅读的垃圾邮件" 。

二、决策树 原理

1、决策树 须知概念

信息熵 & 信息增益

熵: 熵


网友评论

登录后评论
0/500
评论
子夜初商南
+ 关注