在机器学习领域的华山论剑中,Google 打败了英伟达

简介: 帮助 Google 胜出的,是 Cloud TPU v3 Pod。

雷锋网消息,2019 年 7 月 11 日,Google 宣布旗下的 Google Cloud Platform(GCP)在最新一轮的 MLPerf 基准竞赛中创造了三个新的表现记录,这三个记录都是基于 Cloud TPU v3 Pod 实现的。

Google 表示,利用 Cloud TPU Pod 的强大速度,这三个记录用了不到两分钟的计算时间就得以完成。

MLPerf:机器学习领域的华山论剑

MLPerf 是 2018 年 5 月由 Google、百度、Intel、AMD、哈佛大学和斯坦福大学等企业和学术机构联合发布的一款基准测试工具,它的用处是用来测量机器学习软件和硬件的执行速度,获得了吴恩达和 Google 机器学习负责人 Jeff Dean 的强烈推荐。

TB12WkBXHj1gK0jSZFuXXcrHpXa.jpg

针对 MLPerf 的发布,吴恩达声明称:

AI 正在给各个行业带来改变,但为了充分这项技术的真正潜力,我们仍然需要更快的硬件与软件……我们当然希望获得更强大的资源平台,而基准测试方案的标准化进程将帮助 AI 技术开发人员创造出此类产品,从而帮助采用者更明智地选择适合需求的 AI 选项。

Jeff Dean 也在 Twitter 上表示,Google 很高兴与众多大学和企业一起,成为致力于将 MLPerf 作为衡量机器学习性能的通用标准的组织之一。

MLPerf 项目的主要目标包括:

通过公平且实用的衡量标准加快机器学习发展进程。对各竞争系统进行公平比较,同时鼓励创新以改善业界领先的机器学习技术。保持基准测试的成本合理性,允许所有人参与其中。为商业及研究社区提供服务。提供可重复且可靠的测试结果。

在具体的测试项目上,MLPerf 覆盖了视觉、语言、商业和通用四大领域,包含七项基准测试方案。每个 MLPerf 训练基准测试的度量标准是:在特定数据集上训练一个模型使其达到特定性能的总体时间。众所周知,机器学习任务的训练时间有很大差异,因此,MLPerf 的最终训练结果是由指定次数的基准测试时间平均得出的,其中会去掉最低和最高的数字。

MLPerf 的结果根据专区和给定的产品或平台进行分类,目前有两种专区,即封闭专区(Closed Division)和开放专区(Open Division)。其中封闭专区会指定使用的模型,并限制批量大小或学习率等超参数的值,它对于对比硬件和软件系统非常公平。

英伟达成为第一回合最大赢家

2018 年 12 月 12 日,支持 MLPerf 的研究者和工程师们公布了第一个回合的竞赛结果,其中测量了多种机器学习任务在主流机器学习硬件平台上的训练时间,包括 Google 的 TPU、英特尔的 CPU 和英伟达的 GPU。其测试基准如下:  

TB1bVUBXHH1gK0jSZFwXXc7aXXa.png

通过这次竞赛,MLPerf 产生了封闭专区 V0.5 版本,其结果如下:  

TB12dkxXF67gK0jSZPfXXahhFXa.png

从结果来看,英伟达在其提交的六个 MLPerf 基准测试结果中取得了最佳性能,其中包括图像分类、目标实例分割、目标检测、非循环翻译、循环翻译和推荐系统——从而成为最大赢家。

利用 Cloud TPU v3 Pod,Google 五局三胜

2019 年 7 月 10 日,MLPerf 第二回合的竞赛结果公布,其测试标准如下:

TB13eAzXSf2gK0jSZFPXXXsopXa.png

 基于这轮竞赛结果的封闭专区 V0.6 版本如下:

TB1Xv7zXQT2gK0jSZFkXXcIQFXa.png

可以看到,根据 MLPerf 封闭专区 0.6 版本所呈现的结果,在基于 Transformer 和 SSD 模型的基准测试项目中,Google Cloud TPU 比英伟达预置 GPU 的最佳表现高出了超过 84%。另外,基于 ResNet-50 模型,Google Cloud TPU 也比英伟达预置 GPU 略微胜出。

TB1InozXKL2gK0jSZFmXXc7iXXa.png

在本次竞赛中,帮助 Google 胜出的,是 Cloud TPU v3 Pod。

Cloud TPU v3 Pod 是 Google 推出的第三代可扩展云端超级计算机,其核心特征就是内置了 Google 自主打造的 TPU 处理器。2019 年 5 月,Google 在 I/O 开发者大会上宣布了它的测试版并进行了公开预览。

TB15iQAXND1gK0jSZFsXXbldVXa.png

据雷锋网了解,每一个 Cloud TPU 最高可包含 1024 个单独的 TPU 芯片,这些芯片通过二维环形网状网络连接,TPU 软件堆栈使用该网络通过各种高级 API 将多个机架作为一台机器进行编程;用户还可以利用 Cloud TPU Pod 的一小部分,称为“切片”。

TB1inIzXKP2gK0jSZFoXXauIVXa.gif

Google 方面表示,最新一代 Cloud TPU v3 Pod 采用了液冷式设计,可实现最佳性能;每一个都提供超过 100 petaFLOP 的计算能力;Google 也号称,就每秒原始数学运算而言 Cloud TPU v3 Pod 与全球五大超级计算机相当,尽管它的数值精度较低。

借着这次在 MLPerf 第二次结果中出风头的机会,Google 也不忘在官网推介一下 Cloud TPU v3 Pod 的最新进展。比如说,Recursion Pharmaceuticals 是一家运用计算机视觉技术来处理细胞图像,通过分析细胞特征来评估疾病细胞药后反应结果的公司;以往该公司在通过本地 GPU 训练模型时需要 24 小时,但利用 Cloud TPU Pod,只需要 15 分钟就可以完成。

当然,在雷锋网(公众号:雷锋网)看来,作为一个典型的技术派,Google 之所以如此着力推进 Cloud TPU 的进展,当然也是希望有更多的开发者参与其中——毕竟云计算是当前 Google 最为重视的业务之一。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
机器学习/深度学习 存储 人工智能
High&NewTech:2021 年Google谷歌 I/O 开发者大会 Kemal 等三人主题演讲分享《TensorFlow 在机器学习领域的进展》
High&NewTech:2021 年Google谷歌 I/O 开发者大会 Kemal 等三人主题演讲分享《TensorFlow 在机器学习领域的进展》
High&NewTech:2021 年Google谷歌 I/O 开发者大会 Kemal 等三人主题演讲分享《TensorFlow 在机器学习领域的进展》
|
机器学习/深度学习 传感器 人工智能
Google I/O 李飞飞等四领域女性专家,谈机器学习的过去、现在和未来
在 Google I/O 首日的 Keynote 中,Google 公布了一系列新的硬件、应用和基础研究。自去年提出 AI First 战略,今年的大会上 Google 同样安排了不少与机器学习开发相关的内容,比如《教程 | 如何使用谷歌 Mobile Vision API 开发手机》。
Google I/O 李飞飞等四领域女性专家,谈机器学习的过去、现在和未来
|
机器学习/深度学习 人工智能 机器人
Google I/O 2017:值得期待的机器学习内容有哪些?
当地时间 5 月 17-19 日,谷歌将在山景城举办 Google I/O 开发者大会。从已经公布的日程来看,人工智能、安卓、云、Chrome OS、虚拟现实和增强现实、物联网等都将在本次大会上登台亮相。其中,机器学习和 TensorFlow 将会成为本次大会上的重头戏,涉及到的主题将包括但不限于云、大数据、移动机器学习、Google Assistant 和 Magenta 等。
Google I/O 2017:值得期待的机器学习内容有哪些?
|
机器学习/深度学习 并行计算 异构计算
像Google一样构建机器学习系统3 - 利用MPIJob运行ResNet101
从上篇文章中,我们可以看到如何通过Kubeflow Pipeline运行单节点任务机器学习工作流,在本文中,我们会介绍如何使用Pipeline运行分布式MPI任务,该MPI任务运行模型ResNet101的测试。
12456 0
|
机器学习/深度学习 TensorFlow 算法框架/工具
像Google一样构建机器学习系统2 - 开发你的机器学习工作流
按照上篇文章搭建了一套Kubeflow Pipelines之后,我们一起小试牛刀,用一个真实的案例,学习如何开发一套基于Kubeflow Pipelines的机器学习工作流。 准备工作 机器学习工作流是一个任务驱动的流程,同时也是数据驱动的流程,这里涉及到数据的导入和准备,模型训练Checkpoint的导出评估,到最终模型的导出。
5498 0
|
机器学习/深度学习 固态存储 容器
像Google一样构建机器学习系统 - 在阿里云上搭建Kubeflow Pipelines
谈到机器学习工作流平台,Google的工程经验非常丰富,它的TensorFlow Extended机器学习平台支撑了Google的搜索,翻译,视频等核心业务;更重要的是其对机器学习领域工程效率问题的理解深刻,
5433 0
|
机器学习/深度学习 人工智能
“Google只认钱!机器学习20年没进步”,CMU学者炮轰AI第一大厂
这几天,一位耿直的CMU学者Simon DeDeo,在在Twitter上猛烈炮轰Google Brain团队,对营利性机器学习行业展开嘲讽。(其实也顺便无情抨击了Facebook的研究机构。)
1274 0
|
机器学习/深度学习 算法 TensorFlow
干货 | Google发布官方中文版机器学习术语表
A 一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较,但也适用于任意有限数量的技术和衡量方式。
2913 0
|
机器学习/深度学习 算法
拯救灵魂画手!Google新推AutoDraw,用机器学习帮你画画
本文来自AI新媒体量子位(QbitAI) 想画好和能画好之间,有一条巨大的鸿沟。以致于很多有着天马行空想法的文艺青少年/中老年,都变成了灵魂画手。 不管这是不是一个痛点,现在Google出手了…… 这个新推出的AutoDraw,会尝试识别你的信手涂鸦,基于算法从图库中匹配出一张专业的简笔画。
1256 0

热门文章

最新文章