每周论文清单:高质量文本生成,多模态情感分析,还有一大波GAN | PaperDaily #26

简介:


[ 自然语言处理 ]

Multi-channel Encoder for Neural Machine Translation
@Synced 推荐
Neural Machine Translation

文章提出了一种多信道编码器(MCE)模型,可改进传统神经机器翻译(NMT)模型单一信道编码的缺点。该模型在中英翻译上的 BLEU 值提升了超过 6 个百分点,在英法翻译上用单层模型取得了可与深层模型媲美的效果。

论文链接
https://www.paperweekly.site/papers/1342


DisSent: Sentence Representation Learning from Explicit Discourse Relations
@Ttssxuan 推荐
Sentence Embedding

借助文档中一些特殊的词训练句子 embedding。使用文档中 but、because、although 等词,以及其前后或关联的句子构成语义模型。也就是,使用这些词和句子的关系,约束了句子向量的生成空间(使用句子向量,预测关联词),从而达到训练句子向量目的。

文章只对英文语料进行了测试,实际中文这样的结构也很多,如:因为、所以、虽然、但是,可以参考。

论文链接
https://www.paperweekly.site/papers/1324


End-to-end Learning for Short Text Expansion
@tangxianfeng 推荐
Short Text Expansion

本文第一次用了 end to end 模型来做 short text expansion 这个 task,方法上用了 memory network 来提升性能,在多个数据集上证明了方法的效果;Short text expansion 对很多问题都有帮助,所以这篇 paper 解决的问题是有意义的。

通过在多个数据集上的实验证明了 model 的可靠性,设计的方法非常直观,很 intuitive。

论文链接
https://www.paperweekly.site/papers/1313


Benchmarking Multimodal Sentiment Analysis
@chenbjin 推荐
Multimodal Sentiment Analysis

多模态情感分析目前还有很多难点,该文提出了一个基于 CNN 的多模态融合框架,融合表情,语音,文本等信息做情感分析,情绪识别。

论文链接
https://www.paperweekly.site/papers/1306


Adversarial Ranking for Language Generation
@zhangjun 推荐
Generative Adversarial Networks

本文提出了一种 RankGAN 模型,来解决如何生成高质量文本的问题。

论文链接
https://www.paperweekly.site/papers/1290


[ 计算机视觉 ]


PacGAN: The Power of Two Samples in Generative Adversarial Networks
@Gapeng 推荐
Generative Adversarial Networks

本文旨在研究 mode collapse 问题,提出了 Pac Discriminator 的方法用于解决mode collapse。所谓 pac,就是把 Discriminator 的输入改成多个样本,这么做的好处在于判别器能够同时看到多个样本,可以一定程度上防止 mode collapse 的发生。

我要推荐的并不是他对 mode collapse 的解决方案,而是他分析 mode collapse 的方法,详情参见第 4、5 章。

论文链接
https://www.paperweekly.site/papers/1337


Show-and-Fool: Crafting Adversarial Examples for Neural Image Captioning
@Synced 推荐
Adversarial Training

针对深度学习系统的对抗性样本攻击问题,来自麻省理工学院,加州大学戴维斯分校,IBM Research 和腾讯 AI Lab 的学者在 arXiv 上发表论文提出对于神经网络图像标注系统(neural image captioning system)的对抗样本生成方法。实验结果显示图像标注系统能够很容易地被欺骗。

论文链接
https://www.paperweekly.site/papers/1321


Convolutional Image Captioning
@jamiechoi 推荐

Image Captioning

用 CNN 做 image caption,与 LSTM 对比的话,CNN 的训练速度更快,并且从生成的 caption 效果来看,个人感觉 CNN 的效果也更好。

论文链接
https://www.paperweekly.site/papers/1335


Dual-Path Convolutional Image-Text Embedding
@Layumi 推荐
Convolutional Neural Network

  1. ImageNet 预训练的网络是否是最好的?黑狗白狗都训练成一类 dog,这会损失颜色信息(黑色还是白色)/位置信息(在追球还是树枝)/数量信息(有多少只狗)。同样 word2vec 也未必适合需要处理的数据集(blue 和 red 就很近)所以要进一步 finetune;
  2. 图文互搜要求对图像和文本都有细致的理解。detailed information 很重要;
  3. Ranking Loss 在同时调整两个 CNN 的时候有难度,所以引入了 instance loss;
  4. 在 MSCOCO/Flickr30k 一些 general 数据集上达到 state of the art,在自然语言搜人问题上提升了 18 个点。

论文链接
https://www.paperweekly.site/papers/1311


Learning Feature Pyramids for Human Pose Estimation
@chenhong 推荐
Pose Estimation

论文是香港中文科技大学王晓刚教授团队之作,目前在 MPII 官网在 Single Person 领域,PCKh @ 0.5 evaluation measure,取得 state-of-the-art 水平。

计算机视觉处理人体姿态估计的挑战在于,随着计摄像头视角变化,人体不同部位的图像会发生显著性尺度变化(离摄像头越近的人体部位,看上去越大,图片中占用像素越多)。

单纯低层次或高层次特征是无意义的,需要用特征金字塔网络来融合多层特征,改进 CNN 特征提取,这也是为什么特征金字塔在目标识别和人体姿态识别领域得到广泛使用。

论文在 Stacked Hourglass 基础上,提出 PRMs 模型和研究多分支网络的权重初始化方法。

论文链接
https://www.paperweekly.site/papers/1325

原文发布时间为:2017-12-14
本文作者:让你更懂AI的
本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
3月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
37 0
【论文速递】EMNLP2022:随机模态缺失情况下的多模态情感分析
【论文速递】EMNLP2022:随机模态缺失情况下的多模态情感分析
|
11月前
|
Web App开发 自然语言处理 图形学
自然语言融入NeRF,给点文字就生成3D图的LERF来了
自然语言融入NeRF,给点文字就生成3D图的LERF来了
112 0
|
11月前
|
机器学习/深度学习 算法 数据挖掘
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
|
11月前
|
自然语言处理 测试技术 语音技术
谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现SOTA
谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现SOTA
162 0
|
11月前
|
机器学习/深度学习 自然语言处理 算法
CVPR 2022 | 大幅减少零样本学习所需的人工标注,马普所和北邮提出富含视觉信息的类别语义嵌入
CVPR 2022 | 大幅减少零样本学习所需的人工标注,马普所和北邮提出富含视觉信息的类别语义嵌入
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
217 0
|
11月前
|
自然语言处理 数据挖掘 语音技术
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍我们在 INTERSPEECH 2021 发表的两篇论文工作:一种在预训练 (pre-training) 和微调 (fine-tuning) 中融合音素和文本信息的技术,提升下游 SLP 任务对于 ASR 错误的鲁棒性,以及一种区分式自训练技术 (discriminative self-training) ,减缓对于有
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
|
11月前
|
编解码 算法 Oracle
3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot
3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot
280 0
|
机器学习/深度学习 传感器 数据采集
多模态生理信号情感识别 附代码+报告
多模态生理信号情感识别 附代码+报告
537 0
多模态生理信号情感识别 附代码+报告