百度为人工智能测试违规道歉

简介:

6月4日,百度公司最近宣称在ImageNet(图像识别最大数据库)的图像识别人工智能基准测试中击败了谷歌(微博)和微软。但是周二,ImageNet宣称百度在测试中存在违规行为,百度已经为自己“误导公众”而道歉。


百度的行为凸显了人工智能领域竞争中存在的高度风险。目前,全球顶级科技公司都在争相研发人工智能技术,包括允许计算机识别图像、控制机器人、理解口语以及执行其他任务等。而积累起巨大计算资源的互联网巨头承受着巨大压力,它们需要竭力维持自己的领先地位,无论是声望还是潜在商业利益方面。


除了百度、谷歌、微软外,苹果、Facebook、IBM等科技巨头也都在重金招募大量人工智能研究人员,并且各具雄心。


5月份,百度宣称其在ImageNet测试中取得了全球最好结果,其图像识别错误率仅为4.58%,而微软是4.94%,谷歌为4.8%。在这种测试中,人类辨识ImageNet照片的错误率为5%左右。


可是,周二,ImageNet的计算机科学家发表声明指出,百度在测试中存在违规行为,百度采用了密集测试的方法以提高成绩。按照规定,ImageNet只允许参与者每周向测试服务器提交2次测试结果。可是在3月份的5天时间内,百度却提交了40次结果。ImageNet表示,百度还使用了30个不同的账号,在过去6个月中提交了约200次测试结果。


在ImageNet测试中,人工智能需要扫描拥有100多万张图片的数据库,然后将它们分为1000个不同类别。大多数研究人员通常使用数据库中的部分图片,对软件进行图像识别测试。而通过密集测试,百度工程师可以通过调整他们的软件熟悉这些图片的信息,从而获得优势。


人工智能公司Clarifai首席执行官、ImageNet竞赛上届赢家马休·泽勒尔(Matthew Zeiler)表示:“这种做法是非常糟糕的,这也是为何要限制参赛者向独立服务器提交测试结果的原因。如果你知道了测试内容,你就可以调整参数模型,从而获得更好的测试结果。”


ImageNet已经要求百度在今后一年停止递交ImageNet测试结果。百度拒绝回答相关问题,但在ImageNet网站发表声明称,百度科学家吴韧已经为他所谓的“失误”道歉。他写道:“我们已经在研究中添加了注释……我们将继续提供相关更新。”


原文发布时间为:2015-06-5

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于函数计算实现AI推理
本场景基于函数计算建立一个TensorFlow Serverless AI推理平台。
相关文章
|
12天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能,应该如何测试?(六)推荐系统拆解
该文介绍了推荐系统的基本概念和实现思路。推荐系统通过预处理筛选候选集合,然后利用二分类模型预测用户对内容的喜好概率,再按概率排序选择Top N内容推荐给用户。文中提供了一个使用Spark ML库的简单模型训练DEMO,涉及数据预处理、特征工程和逻辑回归模型。此外,还提及了词向量在处理文本特征中的重要性,它能捕捉词与词之间的关联性。推荐系统的实际应用远比示例复杂,但这个例子有助于理解其核心流程。
21 0
|
2月前
|
机器学习/深度学习 人工智能 安全
中国信通院联合金橙果科技等十七家单位发起人工智能大模型安全基准测试
2024年2月20日下午,AIIA“SafetyAI Bench”(人工智能大模型安全基准测试)线上研讨会成功举办。来自中国信息通信研究院(以下简称“中国信通院”)、厦门大学、北京大学、北京交通大学、360、百度、蚂蚁集团、VIVO、西门​子、小鹏汽车、马上消费、浪潮科技、海信视像、交通银行、商汤科技、邮储银行、普华永道、科大讯飞、金橙果科技、万商天勤律所、中兴通讯、博特智能、开源网安、云天励飞等单位40余位科研机构专家及企业代表参加了本次会议。
|
3月前
|
测试技术 UED
对百度搜索页面设计的测试用例设计
对百度搜索页面设计的测试用例设计
79 0
|
3月前
|
Ubuntu Cloud Native 测试技术
百度搜索:蓝易云【云原生之使用Docker部署ubuntu测试环境】
请注意,以上步骤仅是简单的使用Docker部署Ubuntu测试环境的示例。在实际应用中,您可能需要根据测试需求和应用场景进行更多的配置和优化。同时,在退出容器时,容器并未删除,您可以使用 `docker rm <容器名称>`命令来删除容器。在进行测试时,请谨慎操作,并确保对Docker的使用有一定的了解,以避免不必要的问题。
40 2
|
4月前
|
存储 测试技术 区块链
阿里云、百度云及移动云对象存储横向性能对比测试
在企业的数字化转型进程中,我们观察到越来越多的公司将其IT基础设施迁移到云端。随着企业业务的持续运营,无论是储存、处理、分享还是删除,都会产生大量的数据,这就要求有一个既可靠又高效的系统来管理和存储这些信息。对象存储产品在这个场景中扮演了至关重要的角色。它们以一种可扩展、安全、持久的方式,有效地满足了对大规模非结构化数据存储的需求。 尽管市场上云计算提供商众多,各自都有自己独特的对象存储产品,面对这样的丰富选择,如何寻找最符合企业需求的产品呢?这正是企业今天寻求解答的问题。 在本篇文章中,我们将深入进行一项横向对比测试,专门对阿里云OSS、百度云BOS和移动云EOS这三大云服务提供商的对象
1358 0
|
12天前
|
人工智能 搜索推荐 算法
人工智能,应该如何测试?(七)大模型客服系统测试
这篇文稿讨论了企业级对话机器人的知识引擎构建,强调了仅靠大模型如 GPT 是不够的,需要专业领域的知识库。知识引擎的构建涉及文档上传、解析、拆分和特征向量等步骤。文档解析是难点,因文档格式多样,需将内容自动提取。文档拆分按语义切片,以便针对性地回答用户问题。词向量用于表示词的关联性,帮助模型理解词义关系。知识引擎构建完成后,通过语义检索模型或问答模型检索答案。测试环节涵盖文档解析的准确性、问答模型的正确率及意图识别模型的性能。整个过程包含大量模型组合和手动工作,远非简单的自动化任务。
26 0
|
12天前
|
人工智能 自然语言处理 算法
人工智能,应该如何测试?(五)ASR 效果测试介绍
ASR是自动语音识别技术,将语音转化为文本,涉及多学科知识。数据收集是关键,包括特定人/非特定人、词汇量大小、发音方式、方言和情感等多种类别,高质量数据成本高。ASR流程包括数据收集、标注、输入算法得到文本输出并评估。常用评估指标有字错率(WER)、字正确率及插入/删除/替换率。数据标注需严格遵循规范,工作量大,而Levenshtein库可用于自动化效果评测。在AI领域,大部分时间投入在数据处理上。
24 0
|
12天前
|
人工智能 分布式计算 Kubernetes
人工智能,应该如何测试?(三)数据构造与性能测试篇
本文探讨了人工智能场景中的性能测试,区别于传统互联网测试,其复杂性更高。主要关注点包括两类AI产品——业务类和平台类,后者涉及AI全生命周期,测试难度更大。测试重点是模型训练的性能,特别是数据模拟。需要构造大量结构化数据,如不同规模、分布、分片和特征规模的数据,以评估算法效率。此外,还涉及模拟设备规模(如视频流)和节点规模(边缘计算),以测试在大规模负载下的系统性能。文中提到了使用工具如Spark、ffmpeg、流媒体服务器和Kubernetes(K8S)的扩展项目,如Kubemark,来模拟大规模环境。最后,文章介绍了使用Golang进行异步IO操作以构建海量小文件,优化IO性能。
28 0
|
1月前
|
机器学习/深度学习 数据采集 人工智能
探索人工智能在软件测试中的应用与挑战
【2月更文挑战第21天】 随着技术的不断进步,人工智能(AI)已经逐渐渗透到软件测试的各个环节中,从测试用例的生成到缺陷的预测,再到自动化测试的执行。本文将深入探讨AI技术如何革新传统软件测试流程,提升测试效率和质量,并分析在集成AI技术时可能遇到的挑战及应对策略。我们还将通过实例分析,展示AI如何在提高测试覆盖率、减少人工干预以及优化资源分配方面发挥关键作用。
|
2月前
|
人工智能 前端开发 Java
软件测试/人工智能|熟练使用web控件定位技巧,提升测试工作效率!
软件测试/人工智能|熟练使用web控件定位技巧,提升测试工作效率!
196 1