数据太大爆内存怎么办?七条解决思路 | 机器学习开发手册

  1. 云栖社区>
  2. 雷锋网>
  3. 博客>
  4. 正文

数据太大爆内存怎么办?七条解决思路 | 机器学习开发手册

玄学酱 2017-08-02 15:08:00 浏览1248
展开阅读全文

数据太大爆内存怎么办?七条解决思路 | 机器学习开发手册

Jason Brownlee 

在研究、应用机器学习算法的经历中,相信大伙儿经常遇到数据集太大、内存不够用的情况。

这引出一系列问题:

  • 怎么加载十几、几十 GB 的数据文件?

  • 运行数据集的时候算法崩溃了,怎么办?

  • 怎么处理内存不足导致的错误?

本文将讨论一些常用的解决办法,供大家参考。

处理大型 ML 数据文件的七种思路

1. 分配更多内存

有的机器学习工具/库有默认内存设置,比如 Weka。这便是一个限制因素。

你需要检查一下:是否能重新设置该工具/库,分配更多内存。

对于 Weka,你可以在打开应用时,把内存当作一个参数进行调整。

2. 用更小的样本

你真的需要用到全部数据吗?

可以采集一个数据的随机样本,比如前 1,000 或 100,000 行。在全部数据上训练最终模型之前(使用渐进式的数据加载技巧),先试着用这个小样本解决问题。

总的来说,对算法做快

网友评论

登录后评论
0/500
评论
玄学酱
+ 关注
所属云栖号: 雷锋网