独家 | 一文教你如何处理不平衡数据集(附代码)

  1. 云栖社区>
  2. 数据派THU>
  3. 博客>
  4. 正文

独家 | 一文教你如何处理不平衡数据集(附代码)

子夜初商南 2019-08-25 22:31:52 浏览306
展开阅读全文

翻译:张玲

校对:吴金迪

文章来源:微信公众号 数据派THU

本文约1500字,建议阅读5分钟。


本文作者用python代码示例解释了3种处理不平衡数据集的可选方法,包括数据层面上的2种重采样数据集方法和算法层面上的1个集成分类器方法。

分类是机器学习最常见的问题之一,处理它的最佳方法是从分析和探索数据集开始,即从探索式数据分析(Exploratory Data Analysis, EDA)开始。除了生成尽可能多的数据见解和信息,它还用于查找数据集中可能存在的任何问题。在分析用于分类的数据集时,类别不平衡是常见问题之一。

什么是数据不平衡(类别不平衡)?

数据不平衡通常反映了数据集中类别的不均匀分布。例如,在信用卡欺诈检测数据集中,大多数信用卡交易类型都不是欺诈,仅有很少一部分类型是欺诈交易,如此以来,非欺诈交易和欺诈交易之间的比率达到50:1

网友评论

登录后评论
0/500
评论
子夜初商南
+ 关注
所属云栖号: 数据派THU