PaddlePaddle垃圾邮件处理实战(一)

  1. 云栖社区>
  2. Python爱好者社区>
  3. 博客>
  4. 正文

PaddlePaddle垃圾邮件处理实战(一)

技术小能手 2018-07-23 18:18:00 浏览1643
展开阅读全文

背景介绍

在我们日常生活中,经常会受到各种垃圾邮件,譬如来自商家的广告、打折促销信息、澳门博彩邮件、理财推广信息等,一般来说邮件客户端都会设置一定的关键词屏蔽这种垃圾邮件,或者对邮件进行归类,但是总会有一些漏网之鱼。  不过,自己手动做一个垃圾邮件分类器也并不是什么难事。传统的机器学习算法通常会采用朴素贝叶斯、支持向量机等算法对垃圾邮件进行过滤,今天我们主要讲如何用PaddlePaddle手写一个垃圾邮件分类器。当然,在讲PaddlePaddle做垃圾邮件处理之前,先回顾一下传统的机器学习算法是如何对垃圾邮件进行分类的。

了解数据集

首先先了解一下今天的数据集:trec06c。trec06c是一个公开的垃圾邮件语料库,由国际文本检索会议提供,分为英文数据集(trec06p)和中文数据集(trec06c),其中所含的邮件均来源于真实邮件保

网友评论

登录后评论
0/500
评论
技术小能手
+ 关注
所属云栖号: Python爱好者社区