CVPR 2018现场见闻

简介: 计算机视觉顶级会议 CVPR 于 2018 年于 6 月 18 日在美国盐湖城召开。一年一度的 CVPR 收录了来自全球学者的最新研究,这里不仅是学术界交流的盛会,还是产业界展示成果的平台。

计算机视觉顶级会议 CVPR 于 2018 年于 6 月 18 日在美国盐湖城召开。一年一度的 CVPR 收录了来自全球学者的最新研究,这里不仅是学术界交流的盛会,还是产业界展示成果的平台。随着算法与硬件的飞速发展,计算机视觉、人工智能等技术在我们的生产和生活中的应用越来越普及,与此同时,CVPR 会议本身也在不断地发展和变化。

CVPR 如同一个风向标,向我们展示了在最近一年里该领域的关注热点和最优秀的成果。笔者全程参与了本届 CVPR 会议,在这里与大家分享本届会议的特点、最新的研究热点和该领域相关企业的动向。

会议规模显著扩大

今年 CVPR 的论文投递数逾 3359 篇,相比去年增长约 25%。而论文接收率几乎不变(约 29%),最终被接收的论文多达 979 篇。从如此大量的论文中挑选出符合 CVPR 品质的论文绝非易事,会议组织了 2385 名来自世界各地的优秀审稿人进行评审。同时,参会人数多达 6500 余人,比去年增长约 30%。

因此,正如会议的 general chair,Michael Brown 教授所说,参会者不可能在 5 天的时间里顾全所有的事情,你必须做出取舍,这样才能充分的利用时间。的确如此,在主会议期间,每天都会并行地开展 3 场 oral/spotlight 报告,参会者需要提前了解并从中选择自己最感兴趣的话题来听。

image


image

▲ 图说:CVPR的参会人数和投稿数都出现了大幅增长

除了论文数量明显增长,今年赞助商的数量和赞助金额也明显增长。会议拥有来自全世界的 149 家赞助商,共接收赞助/展示费用达 200 万美元。可以看到,产业界对 CVPR 这一学术会议显示出了极大的兴趣,这也从侧面反映了计算机视觉、人工智能等方面的研究在实际场景中有巨大应用价值。赞助商除了在会场以丰富的形式展示各自的产品和研究成果以外,还提供了大量的招聘和实习岗位,希望吸引来自该领域的精英加入他们。一部分参会者就是冲着这些名企的招聘来,对他们来说这里也相当于是一场招聘会。

值得注意的是,无论是论文发表还是赞助商方面,华人都贡献了巨大的力量。在已接收的论文中,华人作者所占比重相当可观。在 9 家钻石赞助商中,中国企业就有 3 家;在 20 家铂金赞助商中,中国企业占到 9 家。一个最直观的感受是,在会议现场,中国人面孔非常普遍。在参加 poster 展览时,常常一篇 poster 面前全是中国学者,这个时候作者也许会索性用中文给大家讲解。参会的人面前都挂着自己的名牌,上面写有姓名和学校/单位,会议现场常常有人看了一眼笔者的名牌,然后就开始用中文打招呼。在这种氛围下,虽然身处美国,也有一种宾至如归的感觉。

企业参与度极高

相关领域的企业通过多种方式深度参与了本次会议。

首先,在主会期间,大量赞助商在会场展示区通过多种形式展示了各自的研究和应用。有以视频 Demo 形式展示的,比如字节跳动(ByteDance),他们以世界杯比赛视频为例展示了基于计算机视觉的足球比赛理解技术。该技术能够对球员和足球进行实时的追踪和分割,并且能自动生成鸟瞰图。目前正值俄罗斯世界杯期间,这样的展示很容易吸引参观者围观。公司旗下的短视频应用非常火爆,他们也展示了对于短视频中多人物的实时姿态检测,以及基于这些技术的有趣应用,比如抖音尬舞机,让人印象深刻。


image

▲ 字节跳动的系统可以基于计算机视觉,理解足球比赛技术

现场还有以视频或实体模型形式来展示的公司,比如 Momenta、图森科技、AURORA 等。京东展示了仓库巡逻机器人等无人仓库场景下的智能产品。还有以用户互动形式来展示的公司,比如商汤科技允许用户坐在模拟驾驶位,展示其对司机驾驶状态、目光注意力以及司机手势的识别能力;Adobe 则允许用户在触摸板上画出一个人像,然后算法会对其自动上色。会场中,各个企业展示了涵盖智能监控、自动驾驶、无人商店和智慧理疗等多个重要领域的 AI 应用,显示出 AI 落地的广阔前景。

除了在主会展示,各大企业都在不同场所分别组织了 party,邀请 CVPR 的参会者参与。笔者参与了商汤、字节跳动(旗下有今日头条和抖音等产品)和 Momenta 的聚会。在活动中,企业详细介绍了自己的企业文化、主要产品和研究方向,以及未来的发展规划。以字节跳动为例,作为国内发展势头迅猛的 AI 企业,它已经开始了全球布局,例如在包括美国硅谷在内的全球各地设立 AI 实验室,从而招募更多的行业精英。以数据挖掘、内容推荐为驱动的今日头条吸引了大量用户。基于视频理解技术,它在短视频、视频直播等应用上也推出了极具创新的应用,助使其打造 AI+ 娱乐应用新模式。在宴会期间,笔者与同一桌的参会者进行了交流。他们都是来自中国的在读博士,除了一位来自英国帝国理工大学,一位来自同济大学,其余都来自美国的各个不同大学。

值得注意的是,企业同时也是 CVPR 会议中重要的论文发表者。据统计,论文发表数名列前茅的是,谷歌发表 45 篇,商汤科技发表 44 篇,Facebook 发表 35 篇,腾讯 AILab 发表 21 篇。可以看到,相关 AI 企业展示出越来越强大的科研实力和科研热情。产业界在实际应用中会第一时间发现问题、提出问题并迅速寻找解决方案。通过学术论文的发表,产业界与学术界共同分享新的思路和想法,这对学术的发展起到了很好的推动作用。如今,产业界和学术界的联系越来越紧密,在 AI 领域,真正做到了高效的产学研结合,这对整个 AI 生态的高效可持续发展是至关重要的。

研究热点概览

深度学习在计算机视觉领域继续发挥重要作用。众所周知,深度学习是数据驱动的,在这个数据为王的时代,收集和标注大量的数据来训练模型往往是实际场景中提升性能最简单有效的办法。然而,即便是有大量人力物力的企业,也很难对手头的海量数据完全标注,因此,半监督/弱监督学习是一个十分重要的课题。

以语义分割任务为例,研究者往往会采用图像类别标签进行弱监督学习。利用类别概率的响应热图(class activation map 或 peak response map)产生初始分割,不同的文章在后续进行各自的处理,从而实现弱监督的图像语义分割。

关于数据的另一个问题是,即使我们在一个庞大的数据集上训练得到了很好的模型(以验证集为评价依据),当我们将其投入实际应用时,可能会因为该场景下的数据分布与已有的数据分布有较大差异,性能明显下降。例如,这一问题在行人再识别中尤其明显,由于摄像头参数、光照等原因,实际场景可能会遇到分布很不相同的数据。迁移学习(Transfer Learning)是解决这一问题的常用思路,这也是本次会议论文的一个重要方向。

生成对抗网络(GAN)依然火热,在多种应用中都发挥了重要作用。比如,本届 CVPR 的 oral 文章《Finding Tiny Faces in the Wild with Generative Adversarial Network》,想要解决人脸检测中尺度多变的问题。为了更好地检测图像中较小的人脸,它利用生成器将低分辨率图像转换为高分辨率图像,并设计了两路的判别器,对高分辨率/低分辨率、人脸/背景进行判断。该方法能有效地对低分辨率的 proposal 进行超分辨率变换,并且能保持其原有的类别(人脸或背景),从而有效地帮助检测图像中分辨率很低的人脸。在其他方面,我们也看到了许多关于 GAN 的应用。

随着深度学习应用落地,在很多场景下可利用的存储和计算资源受限,比如在手机端、自动驾驶车辆上。因此,关于模型压缩、计算加速的文章也是非常重要的课题。比如 UC Berkeley 提出的《Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions》,提出了通过平移feature map和使用卷积的方式,来取代传统的卷积,从而极大地缩小模型尺寸、减小计算量,并且由于去除了隐层特征中的冗余信息,该方法还能带来识别率上的提升。

笔者来到这篇文章的 poster 面前时,发现围观的人群已经挤满了位置。展板前面一位面似中国人的帅小伙在声情并茂地为大家讲解,而且他的口语十分地道。后来等到人群散去,我与他交流才发现原来他是美国人,不会说中文。他看到我的名牌后说,他的 mentor,即本文的第一作者,也来自清华。我与这位学长沟通后知道,原来他也是清华电子系毕业,在伯克利读博,已经五年级了。他向我介绍了他们实验室目前在于自动驾驶公司合作,做的项目专注于深度学习的模型压缩、加速,以及基于激光雷达的语义分割等。他们还举办了本届 CVPR 的一场 workshop:Efficient Deep Learning for Computer Vision。笔者参加了这场 workshop,有许多大牛来讲解了在硬件资源受限的情况下,高效地设计和使用神经网络的相关技术和研究。

获得了 ImageNet 2017 冠军的 Squeeze-and-Excitation Networks 也在现场进行了讲解,Oral 的时间虽然是早晨 8 点多,但依旧吸引了大批观众,Poster 前更是聚拢了一大群交流的学者。SE 架构大幅提升了模型的精度。通过引入全局图像的信息自动对卷积特征重新分配权重,增强对分类有用的特征,而抑制无效或收益甚微的特征。在只引入极少的计算量和参数量的情况下,可以将现有的绝大多数 CNN 的性能进行大幅提升。

原文发布时间为:2018-07-07
本文作者:万纬韬
本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”。

相关文章
|
11月前
|
机器学习/深度学习 传感器 存储
为自动驾驶汽车创造「记忆」,上交校友、康奈尔大学博士生三篇论文被CVPR 2022收录
为自动驾驶汽车创造「记忆」,上交校友、康奈尔大学博士生三篇论文被CVPR 2022收录
174 0
|
11月前
|
数据可视化 数据挖掘 大数据
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读(2)
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读
146 0
|
11月前
|
机器学习/深度学习 达摩院 算法
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读(1)
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读
|
机器学习/深度学习 Web App开发 人工智能
ICLR今日放榜!创纪录2594篇投稿,687篇被接受论文华人学者参与近半
今天,ICLR 2020放榜了!共收到2594篇论文提交,创历史新高,其中,有687篇被接受,接受率为26.5%。粗略统计,大概有320篇被接受的论文中有华人学者参与,占比47%。
273 0
ICLR今日放榜!创纪录2594篇投稿,687篇被接受论文华人学者参与近半
《Science》刊登中科院最新突破,用二氧化碳合成淀粉,网友已开始安排诺贝尔奖
《Science》刊登中科院最新突破,用二氧化碳合成淀粉,网友已开始安排诺贝尔奖
154 0
《Science》刊登中科院最新突破,用二氧化碳合成淀粉,网友已开始安排诺贝尔奖
|
机器学习/深度学习 人工智能 自然语言处理
IJCAI 2021开幕:程序主席周志华揭晓热门研究主题,杰出论文等奖项出炉
从AI学术顶会IJCAI统计的这些数据中,洞见热门研究趋势。
182 0
IJCAI 2021开幕:程序主席周志华揭晓热门研究主题,杰出论文等奖项出炉
|
机器学习/深度学习 人工智能 自然语言处理
NIPS大会最精彩一日:AlphaZero遭受质疑;史上第一场正式辩论与LeCun激情抗辩;元学习&强化学习亮点复盘
美国时间周四,NIPS 大会走完了日程的一半。工业界的众多公司搬东西撤出了展览会场,受邀演讲也全部结束。之后亮点除了当地时间周五周六的 Workshop 以外,就是周四下午的四场重要的研讨会——从元学习和深度强化学习,到 DeepMind 刚刚公布的 AlphaZero,以及 Yann LeCun 参加了 NIPS 史上第一次辩论,一天的精彩内容尽在此文中。
181 0
NIPS大会最精彩一日:AlphaZero遭受质疑;史上第一场正式辩论与LeCun激情抗辩;元学习&强化学习亮点复盘
|
机器学习/深度学习 人工智能 算法
华人问鼎CVPR!最佳论文、最佳学生论文一作均为华人,近四成作者来自中国,清华为最高产机构
华人问鼎CVPR!最佳论文、最佳学生论文一作均为华人,近四成作者来自中国,清华为最高产机构
295 0
|
数据库 索引 SQL
SIGMOD 2019 现场直击!带给你最独家的 15 篇论文全解读
> SIGMOD会议位列数据库方向的三大顶级会议之首(其次是VLDB及ICDE)。2019SIGMOD于6月30日至7月5日在荷兰阿姆斯特丹举办。本文由OceanBase团队为读者带来最权威、最前沿的大会独家报道。
9474 0
SIGMOD 2019 现场直击!带给你最独家的 15 篇论文全解读