三招提升数据不平衡模型的性能(附python代码)

  1. 云栖社区>
  2. 翻译小组>
  3. 博客>
  4. 正文

三招提升数据不平衡模型的性能(附python代码)

【方向】 2018-06-08 23:16:29 浏览4056
展开阅读全文

       对于深度学习而言,数据集非常重要,但在实际项目中,或多或少会碰见数据不平衡问题。什么是数据不平衡呢?举例来说,现在有一个任务是判断西瓜是否成熟,这是一个二分类问题——西瓜是生的还是熟的,该任务的数据集由两部分数据组成,成熟西瓜与生西瓜,假设生西瓜的样本数量远远大于成熟西瓜样本的数量,针对这样的数据集训练出来的算法“偏向”于识别新样本为生西瓜,存心让你买不到甜的西瓜以解夏天之苦,这就是一个数据不平衡问题。针对数据不平衡问题有相应的处理办法,比如对多数样本进行采样使得其样本数量级与少样本数相近,或者是对少数样本重复使用等。最近恰好在面试中遇到一个数据不平衡问题,这也是面试中经常会出现的问题之一,现向读者分享此次解决问题的心得。

1_jpeg

数据集

       训练数据中有三个标签,分别标记为[1、2、3],这意味着该问题是一个多分类问

网友评论

登录后评论
0/500
评论
【方向】
+ 关注
所属云栖号: 翻译小组