秒懂!看机器学习如何净化处理文本

  1. 云栖社区>
  2. 翻译小组>
  3. 博客>
  4. 正文

秒懂!看机器学习如何净化处理文本

【方向】 2017-10-20 10:51:31 浏览4834
展开阅读全文

更多深度文章,请关注:https://yq.aliyun.com/cloud

你不能直接把原始文本提交给机器学习或深层学习模型,而必须首先对文本进行净化,也就是将文本分解成单词,以及处理标点符号和大小写。

事实上,你需要使用一整套的文本预处理方法,而且这个方法的选择取决于你需要对自然语言做何种处理。

在本教程中,你将学到如何为机器学习建模而净化和处理文本,包括:

  • 如何开发简单的文本净化工具。
  • 如何使用NLTK库中更复杂的方法。
  • 在使用现代文字表示方法时如何处理文本。

让我们开始吧。

机器学习文本净化处理
照片出自changehali,保留部分权利。

教程概述

本教程包含六个部分,分别为:

  1. 弗兰茨·卡夫卡的《变形记》
  2. 文本净化是一件依赖于具体任务的工作
  3. 手动标记
  4. 使用NLTK进行标记和净化
  5. 文本净化注意事项

弗兰茨·卡夫卡的《变形记》

首先选择一个数据集。

本教程使用了弗兰茨·卡夫卡《变

网友评论

登录后评论
0/500
评论
【方向】
+ 关注
所属云栖号: 翻译小组