手把手教你用 python 和 scikit-learn 实现垃圾邮件过滤

  1. 云栖社区>
  2. 雷锋网>
  3. 博客>
  4. 正文

手把手教你用 python 和 scikit-learn 实现垃圾邮件过滤

玄学酱 2017-08-01 10:56:00 浏览1915
展开阅读全文

文本挖掘(Text Mining,从文字中获取信息)是一个比较宽泛的概念,这一技术在如今每天都有海量文本数据生成的时代越来越受到关注。目前,在机器学习模型的帮助下,包括情绪分析,文件分类,话题分类,文本总结,机器翻译等在内的诸多文本挖掘应用都已经实现了自动化。

在这些应用中,垃圾邮件过滤算是初学者实践文件分类的一个很不错的开始,例如 Gmail 账户里的“垃圾邮箱”就是一个垃圾邮件过滤的现实应用。下面我们将基于一份公开的邮件数据集 Ling-spam,编写一个垃圾邮件的过滤器。Ling-spam 数据集的下载地址如下:

http://t.cn/RKQBl9c

这里我们已经从 Ling-spam 中提取了相同数量的垃圾邮件和非垃圾邮件,具体下载地址如下:

http://t.cn/RKQBkRu

下面我们将通过以下几个步骤,编写一个现实可用的垃

网友评论

登录后评论
0/500
评论
玄学酱
+ 关注
所属云栖号: 雷锋网