IBM发布最新AI模型,帮视障者“看”到更多

简介: 在IBM最新的论文中,研究人员提出了一种能自主制作多样化、创造性和符合人类语境的图片文字说明的模型。实验证明,图片的文字说明取得了“良好”的性能,未来可以为强大的新计算机视觉系统奠定了基础。

image.png

智造观点

在IBM最新的论文中,研究人员提出了一种能自主制作多样化、创造性和符合人类语境的图片文字说明的模型。实验证明,图片的文字说明取得了“良好”的性能,未来可以为强大的新计算机视觉系统奠定了基础。

无论是报社、杂志社还是新媒体,编辑们最不愿意干得事情就是为图片搭配文字说明。事实上这项工作必要且重要但实际操作上又非常枯燥。

不过,一个振奋人心的消息是,AI可能很快就能处理大部分工作。6月18日在加州长滩举行的2019年计算机视觉和模式识别会议(CVPR)上,Pierre L. Dognin, Igor Melnyk, Youssef Mroueh, Jarret Ross, Tom Sercu发表了一篇论文《改进图像说明的对抗性语义对齐》,提出了一种能够自主制作多样化、创造性和符合人类语境的图片文字说明的模型

image.png

在论文中,他们将图像说明作为一种有条件的GAN(生成式对抗网络)训练进行研究,提出了一种上下文感知的LSTM字幕器和共同注意鉴别器,它们加强了图像和字幕之间的语义对齐。

研究人员根据经验着重研究了SCST和ST两种训练方法的可行性。他们发现即使没有直接访问鉴别器梯度,SCST也比ST显示出更稳定的梯度行为和更好的结果。进而还解决了对这些模型进行自动评估的开放性问题,引入了一个新的语义评分,并证明了它与人类判断的强相关性。

作为评估范例,一个重要的标准是生成器能够概括出平常不会一起出现的对象之间的组合关系。为此研究人员引入了一个小标题能脱离上下文(OOC)测试集。OOC与常规语义评分相结合,为图片搭配说明文字得体系提出了新基准。当面向OOC和MS-COCO进行测试时,可以发现基于SCST的训练在语义评分和人类评估方面都有很强的表现,有望成为高效离散GAN训练的一种有价值的新方法。

image.png

目前,构建系统需要解决自动说明文字系统的一个主要缺点:顺序语言生成导致语法正确—但同质、非自然和语义不相关的结构

研究者的方法是通过一个注意力文字说明模型来解决这个问题,模型使用它正在观察的照片中的场景片段来造句。在每一个生成步骤中,团队的AI都可以选择关注最后一步的视觉或文本提示。

为了确保生成的文字说明听起来不太机械化,研究团队在训练时使用了生成对抗网络(GANs)——由生成样本的生成器和试图区分生成样本和现实世界样本的鉴别器组成的两部分神经网络。共同注意鉴别器通过一个在像素级匹配场景和生成单词的模型对新句子的“自然度”进行评分,使文字说明者能够通过图像和句子成对来进行合成。

文字说明系统中的另一个常见问题是,如何避免训练数据集的偏差,即经常遭受过度拟合(特定数据集过于接近的分析)就需要构建诊断工具,否则并不适合推广到学习对象(“床和卧室”)出现在看不见的环境(“床和森林”)中的场景。为此,研究人员提出了一种标题图像的测试语料库,其设计方式使得不良模型性能表明过度拟合。

image.png

在实验中,Amazon's Mechanical Turk评估人员负责识别AI模型生成的文字说明,并判断每句话对相应图像的描述程度,给出几个真实的和合成的样本,研究人员表示,他们的文字说明总体上取得了“良好”的性能。他们相信他们的工作为强大的新计算机视觉系统奠定了基础,并打算在未来的工作中继续探索这些系统。另外,衔接语言和视觉语义的鸿沟表明需要将常识和推理融入场景理解中。

未来,图像文字说明的自动生成和场景理解的进步,使AI系统可以作为视觉障碍者的助理改善他们的日常生活。
来源:微信公众号 人工智能观察

目录
相关文章
|
24天前
|
机器学习/深度学习 人工智能 算法
AI音乐生成创企发新模型 几秒生成两分钟歌曲
Suno公司推出AI音乐生成模型,基于深度学习和大数据,快速创作符合用户喜好的歌曲,简化音乐创作流程,让业余爱好者也能参与。该模型高度可定制,支持二次创作,引发行业关注。创始人强调,目标是辅助而非取代人类音乐家,旨在促进音乐产业创新与发展。
55 1
AI音乐生成创企发新模型 几秒生成两分钟歌曲
|
28天前
|
机器学习/深度学习 人工智能
谷歌发AI足球教练模型TacticAI 登Nature子刊
【2月更文挑战第30天】谷歌DeepMind与利物浦FC合作开发的TacticAI是一款人工智能足球战术助手,能分析角球战术并提供建议,已在《Nature Communications》发表。利用图机器学习和几何深度学习,TacticAI预测角球战术并在90%情况下优于传统方法。该系统有助于教练制定精准战术,但实际比赛中的适应性和数据隐私限制了其潜力的完全发挥。
36 2
谷歌发AI足球教练模型TacticAI 登Nature子刊
|
1月前
|
人工智能 自然语言处理 API
Google Gemma 模型服务:开放的生成式 AI 模型服务
Google Gemma 模型服务:开放的生成式 AI 模型服务
109 4
|
1月前
|
人工智能 安全 网络安全
欧盟《人工智能法案》对通用AI模型的监管要求
【2月更文挑战第24天】欧盟《人工智能法案》对通用AI模型的监管要求
77 1
欧盟《人工智能法案》对通用AI模型的监管要求
|
28天前
|
人工智能 编解码 物联网
Stability AI推出新的AI图像生成模型Stable Cascade,对比 SD2.1 的算力成本降低了10倍左右!
Stability AI推出新的AI图像生成模型Stable Cascade,对比 SD2.1 的算力成本降低了10倍左右!
|
1月前
|
人工智能 运维 自然语言处理
智领,万象新生:智谱AI推动大模型商业化迈向新阶段
放眼当下的科技浪潮,AI大模型无疑是一年多来持续引人注目的焦点。基于大模型的算法推理,30秒即可生成完美可用的Word、PPT文档,工作时长不必再以小时计算;真人对话一般输入简短文字,就能在30秒内得到想要的图画、代码、文本、视频……大模型让科幻小说中的场景,走进了千行百业、千家万户的现实生活。
|
2天前
|
机器学习/深度学习 编解码 人工智能
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
7 1
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
|
2天前
|
数据采集 人工智能 编解码
二次元专用超分AI模型APISR:在线可用,入选CVPR
【4月更文挑战第15天】APISR是一款由密歇根大学、耶鲁大学和浙江大学联合研发的AI模型,专攻动漫风格的超分辨率问题。在CVPR会议上发表的这项成果,通过理解动漫制作流程,针对性地收集和处理训练数据,提升了动漫图像的清晰度和视觉效果。APISR引入预测导向的压缩模块和平衡的双感知损失函数,有效恢复手绘线条并减少颜色伪影。此外,模型关注图像复杂性,优化训练数据质量和学习效率。尽管面临处理复杂场景和颜色偏差的挑战,APISR为动漫图像处理开辟了新方向。
7 1
二次元专用超分AI模型APISR:在线可用,入选CVPR
|
11天前
|
Web App开发 人工智能
阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪
阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪
54 3
阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章

热门文章

最新文章