Facebook开源看图问答模型Pythia:拿下VQA比赛冠军就靠它

简介: Facebook刚刚为这个领域的探索者们,开源了一个模块化视觉问答框架:Pythia。

image

——猫戴着什么?

——帽子。

image

——天气怎么样?

——下雨。

image

——披萨上面是什么?

——蘑菇。

看图回答这些问题,对我们人类来说再简单不过了,但是要让AI熟练掌握这项技能,还需要探索。

Facebook刚刚为这个领域的探索者们,开源了一个模块化视觉问答框架:Pythia。

事情还要从在弗吉尼亚理工大学和乔治亚理工大学主办的视觉问答(Visual Question Ansering)比赛VQA Challenge说起。

image

比赛上,Facebook AI研究院(FAIR)队伍,A-STAR拿下了冠军。总成绩72.41分,排名第一,在是否(上图的Yes/No)、其他(Other)两类问题上也排名第一,分别拿下了87.7和63.95分,就是数学(Number)成绩差了点,51.51分,不及格,排在第六。

其他的参赛者,回答“是/否”都答得还算不错,回答数字都不及格,而答案五花八门的其他问题,也在及格线上下徘徊。

夺冠的FAIR观察发现,目前的视觉问答(VQA)模型,无外乎这样几个模块:问题编码、图像特征提取、答案空间分类。

于是,他们就想针对VQA领域,打造一个简单的模块化的模型研发平台,说不定还能顺便用在看图对话上。

建造平台的第一步,就是开源了A-STAR参赛所用模型的基础框架:Pythia,目前版本号v0.1。

为Pythia打下基础的,是2017年VQA Challenge冠军,Peter Anderson等人提出的Bottom-Up and Top-Down Attention模型。

Bottom-Up,指的是这个模型以ResNet-101为基干网络,用了Visual Genome数据集预训练的Faster-RCNN,用自底向上的注意力机制来提取图像特征。

而Top-Down,指的是根据问题(当前任务)来计算图像区域上的注意力分布。

在这个模型的基础上,FAIR团队做了一些调整。

比如说,将up-down模型里的双曲正切激活函数换成权重标准化+ReLU,用Adamax来优化模型,增大学习率。又比如,把bottom-up模型里的目标检测模型换成Detectron里的FPN,还对用到的数据集:Visual Genome、Visual Dialog等都做了数据扩增。

image

每一个模块的优化,都带来了模型性能的提升。

BTW,Facebook参赛队伍和框架的名字都别有深意。

队伍的名字——A-STAR,跟星星没什么关系,它是意思是能看、说话、行动、推理的智能体(Agents that See, Talk, Act, and Reason)

框架名字Pythia,也就是希腊神话中的皮提亚,德尔菲阿波罗神庙中的女祭司。女祭司的一项重要工作嘛,就是回答问题。

image

如果你也想搭一个会看图回答问题的模型,收好这份paper:
Pythia v0.1: the Winning Entry to the VQA Challenge 2018
*Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh
https://arxiv.org/pdf/1807.09956.pdf
以及开源代码:
https://github.com/facebookresearch/pythia
为它打下基础的Bottom-Up and Top-Down Attention:
https://github.com/hengyuan-hu/bottom-up-attention-vqa

原文发布时间为:2018-07-29
本文来自云栖社区合作伙伴“量子位”,了解相关信息可以关注“量子位”。

相关文章
|
8月前
|
机器学习/深度学习 算法 决策智能
【重磅开源】Facebook开源 Nevergrad:一种用于无梯度优化的开源工具
【重磅开源】Facebook开源 Nevergrad:一种用于无梯度优化的开源工具
|
12月前
|
缓存 数据可视化 测试技术
开源多年后,Facebook这个调试工具,再登Github热门榜
让许多工程师合作开发大型应用大多会面临一个挑战,通常没有一个人知道每个模块是如何工作的,这种技能会让开发新功能、调查Bug或优化性能变得困难,为了解决这个问题,Facebook创建并开源了Flipper,一个可扩展的跨平台的调试工具,用来调试 iOS 和 Android 应用。近日又双叒登上了Github热榜。
|
前端开发 JavaScript 测试技术
Facebook 开源可扩展文本编辑器 Lexical
Meta(原 Facebook)近日开源可扩展文本编辑器 Lexical,源代码托管在 GitHub 上采用 MIT 许可证。
389 0
Facebook 开源可扩展文本编辑器 Lexical
|
机器学习/深度学习 自动驾驶 安全
AWS 和 Facebook 合作推出 PyTorch 模型服务框架 TorchServe
  近日,Facebook 和 AWS 合作推出了 PyTorch 模型服务库 TorchServe,强强联手剑指 Google TensorFlow。   PyTorch 是当下最火的深度学习开源库之一,可以帮助开发者和研究人员更轻松地构建和训练模型。即便有了 PyTorch,在生产中部署和管理模型仍然是机器学习的一大难题,包括构建定制的预测 API,对其进行缩放以及保证其安全等问题。   简化模型部署过程的一种方法是使用模型服务器,即专门设计用于在生产中提供机器学习预测的现成的 Web 应用程序。模型服务器可轻松加载一个或多个模型,并自动创建由可伸缩 Web 服务器支持的预测 API。
166 0
|
机器学习/深度学习 人工智能 自然语言处理
无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好
Facebook在语音识别上又出重磅新作,继wav2vec, wav2vec 2.0以来,又出完全不需要监督数据的wav2vec-U,小众语言也能用语音识别啦!
505 0
无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好
|
XML jenkins Java
Facebook开源静态代码分析工具Infer介绍
Infer是Facebook公司的一个开源的静态分析工具。Infer 可以分析 Objective-C, Java 或者 C 代码,用于发现潜在的问题。其作用类似于sonar和fortify。Infer更倾向于发现代码中的空指针异常、资源泄露以及内存泄漏的问题。
Facebook开源静态代码分析工具Infer介绍
|
机器学习/深度学习 人工智能 自然语言处理
10亿参数,10亿张图!Facebook新AI模型SEER实现自监督学习,LeCun大赞最有前途
刚刚,Facebook公布了一个在10亿张图片上训练的AI模型SEER。该模型包含10亿个参数,可以从网上任何未标记图像的中学习,并在一系列计算机视觉基准上取得了先进的结果。Facebook的这一突破能否实现计算机视觉的自监督学习革命?
267 0
10亿参数,10亿张图!Facebook新AI模型SEER实现自监督学习,LeCun大赞最有前途
|
机器学习/深度学习 人工智能 文字识别
图神经网络版本的PyTorch来了,Facebook开源GTN框架,还可对图自动微分
近日,Facebook的AI研究院发表了一篇论文「DIFFERENTIABLE WEIGHTED FINITE-STATE TRANSDUCERS」,开源了用于图网络建模的GTN框架,操作类似于PyTorch这种传统的框架,也可以进行自动微分等操作,大大提高了对图模型建模的效率。
271 0
图神经网络版本的PyTorch来了,Facebook开源GTN框架,还可对图自动微分
|
机器学习/深度学习 算法 数据挖掘
ResNet压缩20倍,Facebook提出新型无监督模型压缩量化方法
怎样用量化方法解决模型压缩问题?Facebook 近日提出了一个基于向量的量化方法,无需标注数据即可对 ResNet 模型进行20倍压缩,还能够获得很高的准确率。
353 0
ResNet压缩20倍,Facebook提出新型无监督模型压缩量化方法
|
移动开发 Java 程序员
Facebook 将神奇动画引擎 Pop 开源了!
Facebook 2月发布的新闻类应用Paper,因为其灵动的用户界面和交互,成为近来最令人眼前一亮的移动产品之一。 而这个产品的背后是2011年Facebook收购的Push Pop Press,创始人是分别在Apple任设计师和工程师的Mike Matas与Kimon Tsinteris。他们的合作者还有传奇人物Bret Victor。他们为美国前副总统Al Gore开发的电子书Our Choice当时就曾技惊四座。
304 0
Facebook 将神奇动画引擎 Pop 开源了!