学界 | 当前机器学习成果真的可靠吗?伯克利&MIT新研究质疑基准测试集

简介:

近日,伯克利和MIT研究者发布的一篇名为《Do CIFAR-10 Classifiers Generalize to CIFAR-10?》的新论文提出了学界一个尖锐的问题:包括CIFAR10在内的知名基准测试集,都存在验证集过拟合问题。

这一论文引起了Keras之父François Chollet的关注与力挺,关于数据集的讨论在推特上一发不可收拾,包括Gary Marcus和François都连发数条推特对此问题进行了讨论。

在连续20几个小时的连续发推中,François Chollet肯定了这篇论文带来对过测试集拟合问题的思考,但是也提出了一些论文中不恰当的地方。

最后,大神也提出了自己的建议,通过高熵验证过程(如k-fold验证)来解决这个问题。

让我们先来看看这篇论文到底说了什么。

bc1ff8dfffa237ba84ed1249b26f24775b73b157

这篇论文创建了一组真正“未出现过”的同类图像来测量 CIFAR-10 分类器的准确率,以验证当前的测试集是否会带来过拟合风险。

论文中称,我们通常只能获取具备同样分布的有限新数据。现在大家普遍接受在算法和模型设计过程中多次重用同样的测试集。但显而易见的是,当前的研究方法论忽视了一个关键假设:分类器与测试集应该独立存在。

这种不独立带来了显而易见的威胁——研究社区可能会设计出只在特定测试集上性能良好,但无法泛化至新数据的模型。

大数据文摘微信公众号后台回复"过拟合"下载本篇论文

显而易见,目前深度学习领域的很多“标题党论文”,都存在验证集过拟合问题,包括CIFAR10在内的知名基准测试集。

77d8d1027e46500f664338b6e53e06bc0aebb0d6

大量“标题党”论文

François Chollet称很高兴在这篇论文《Do CIFAR-10 Classifiers Generalize to CIFAR-10?》看到对验证集过拟合的量化。从2015年以来,ImageNet数据集也存在这样的问题。

接下来的一天中,François Chollet之后还针对这一问题发表了很多评论。

以下为François Chollet推特部分内容:

17d8617a530caa998fa164500c9caec2497a5894

如果为了发论文,针对固定验证集,选择特定的方法、体系结构和超参,那么它就已经不再是验证集,而是训练集,而且不能保证选定方法能推广到真实数据。

很多深度学习研究并未遵循科学方法,验证集过拟合问题不容忽视。另外,使用弱基准测试集,很难将实验结果与论文提出的重大想法建立明确的联系(因为有的太多可变因素)。

同样,想要复现大多数论文中的模型或想法也很困难。例如实验结果的后选择、对比实验结果时缺乏显著性检验等问题。

假如你正在参加Kaggle比赛,如果你使用从训练集(包括public leaderboard)分离出来的固定验证集来评估你的模型/想法,那么你的模型在private leaderboard上的表现肯定很一般。学术研究同样如此。

François Chollet还提出了克服该问题的一个简单建议:用高熵验证过程(如k-fold验证),用带shuffling的递归k-fold验证更好。并且只在最终官方验证集上检验结果。

的确成本更高了,不过成本也是正则化项,迫使你尝试更少更明智的方法。

同时,François Chollet对前段时间引起轩然大波的文章,计算机视觉和 AI 领域专家 Filip Piekniewski的文章《AI Winter Is Well On Its Way》也发表了自己的见解:

自动驾驶汽车是一个很好的例子,因为在这种情况下,存在两种相互竞争的方法:一种是符号方法,另一种是深入学习方法,即通过端到端的学习。其中一种方法会到达L4,在一定程度上甚至会达到L5,另一种却永远达不到。

这并不是说深度学习本质上无法与无人驾驶相融合,而是因为状态空间维度极高,深度学习系统需要在系统运行的同一维度的密度抽样中进行训练。

由于这种具有代表性的密度抽样是不可取的,即使在大量利用模拟环境的情况下,符号方法也将占上风,具体来说,虽然这种方法大多是抽象性的,但却将人类抽象概念与学习的感知基元结合了起来。

让我们用François Chollet的一段话做结:

与大多数事物一样,科学也是一种不精确的艺术,一种靠知识创造的艺术。就像所有的艺术一样,它有我们应该遵循的精确规则。这些规则很容易被破坏,但你破坏的规则越多,你的努力也就越低效。(Science, like most thing, is an inexact art. The art of knowledge creation. And like any art, it has precise rules that one should follow. Any of these rules may be broken, but the more of them you break, the less effective your effort.)


原文发布时间为:2018-06-6

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

相关文章
|
2月前
|
机器学习/深度学习 算法 数据可视化
可解释性机器学习:基于随机森林和Ceteris-paribus的乳腺癌早期诊断研究
可解释性机器学习:基于随机森林和Ceteris-paribus的乳腺癌早期诊断研究
58 1
|
5月前
|
机器学习/深度学习 并行计算 测试技术
MLX vs MPS vs CUDA:苹果新机器学习框架的基准测试
如果你是一个Mac用户和一个深度学习爱好者,你可能希望在某些时候Mac可以处理一些重型模型。苹果刚刚发布了MLX,一个在苹果芯片上高效运行机器学习模型的框架。
130 1
|
6天前
|
机器学习/深度学习 数据挖掘 数据中心
利用机器学习优化数据中心能效的策略研究
【4月更文挑战第24天】在数据中心管理和运营中,能效优化是一个长期存在的挑战,它直接关系到成本控制和环境影响的减轻。随着人工智能技术的不断进步,特别是机器学习(ML)方法的广泛应用,为解决数据中心能效问题提供了新的途径。本文旨在探讨如何通过机器学习技术对数据中心的能源消耗进行建模、预测和优化,以实现更高的能效。我们首先分析了数据中心能耗的主要组成部分,然后提出了一种基于机器学习的能效优化框架,并详细阐述了关键技术和方法。最后,通过实验验证了所提出策略的有效性,并讨论了未来的研究方向。
|
11天前
|
机器学习/深度学习 运维 监控
利用机器学习优化数据中心能效的研究
【4月更文挑战第19天】在数据中心的运营成本中,能源消耗占据了显著比例。随着能源价格的不断攀升与环境保护意识的加强,如何降低数据中心的能耗已成为研究的热点。本文提出了一种基于机器学习的方法来优化数据中心的能效。通过分析历史运行数据,构建预测模型,并结合实时监控,动态调整资源分配策略以达到节能目的。实验结果表明,该方法能有效减少能源开销,同时保证服务质量。
|
12天前
|
机器学习/深度学习 资源调度 调度
利用机器学习优化数据中心能效的策略研究
【4月更文挑战第18天】 在数据中心的运营成本中,能源消耗占据了显著比例。为了降低这一开销同时减少环境影响,本文提出一套基于机器学习技术的数据中心能效优化策略。通过分析数据中心的能耗模式和环境变量,构建了一个预测模型来动态调整资源分配,实现能源使用的最大效率。与传统方法相比,本研究提出的策略在保证服务质量的前提下,能有效降低能耗,并具备自我学习和适应的能力。
|
29天前
|
机器学习/深度学习 弹性计算 数据可视化
玩ST、肿瘤研究的来学习一下!16分Nature子刊的单细胞空间转录组+机器学习
Nature Communications 发表了一项关于空间转录组和机器学习在肿瘤研究中的应用。研究聚焦于HPV阴性口腔鳞状细胞癌,通过整合单细胞和空间转录组分析,揭示了肿瘤核心(TC)和前沿边缘(LE)的独特转录特征。TC和LE的基因表达模式与多种癌症的预后相关,其中LE基因标志关联不良预后,而TC则与较好预后相关。利用机器学习,研究人员建立了预测模型,识别出跨癌症类型的保守TC和LE特征。此外,他们还分析了RNA剪接动态,发现了潜在的治疗脆弱性。这项工作为肿瘤生物学和靶向治疗提供了新见解,并为药物开发提供了依据。
26 0
|
2月前
|
人工智能 前端开发 测试技术
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
【2月更文挑战第17天】研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
32 4
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
|
7月前
|
Java 测试技术 Spring
Spring Boot 学习研究笔记(五) -SpringBoot集成单元测试
Spring Boot 学习研究笔记(五) -SpringBoot集成单元测试
|
8月前
|
机器学习/深度学习 数据采集 自然语言处理
Python 基于机器学习的微博情感分析与研究
Python 基于机器学习的微博情感分析与研究
|
10月前
|
机器学习/深度学习 SQL 数据采集
使用SQL和机器学习进行大规模自动化数据质量测试
使用SQL和机器学习进行大规模自动化数据质量测试

热门文章

最新文章