不再需要词典了,现在,AI通过无监督学习学会了双语翻译

简介:
本文来自AI新媒体量子位(QbitAI)

efc96ffab7efdff5f550c285abc900fd9fa709ff

由于神经网络技术的发展,翻译自动化已经取得了长足的进步。然而传统上,训练这样的神经网络需要大量数据:通过数百万的逐句对照来展示人工如何翻译。

两篇最新论文表明,在不需要平行文本(即同一段文本的不同语言版本)的情况下,神经网络也可以学会翻译。这样的进步可以帮助我们阅读更多不同语言的文档。

b0b93642f50d1668da8eb434143c95b0e7874043

西班牙巴斯克大学计算机科学家Mikel Artetxe表示:“请想象一下,你给一个人大量的中文图书和大量的阿拉伯文图书,两者之间没有任何重叠,随后让这个人学习把中文翻译成阿拉伯文。这似乎是不可能的,对吧?但我们已经证明,计算机可以做到这点。”

大部分的机器学习系统是“受监督”的。计算机做出猜测并对比正确答案,随后调整流程。这种方法在训练计算机翻译英文和法文时效果很好,因为许多文档同时有这两种语言的版本。但对于小语种,或是缺乏平行文本的语言,这种方法就不是太好。

这两篇论文已经提交至明年的ICLR大会,但还没有经过同行评审。论文专注于另一种方法:无监督机器学习。

首先,计算机在没有人工帮助的情况下创建双语词典。这是有可能的,因为语言的单词集群方式有很强的相似性。例如,“桌子”和“椅子”这样的单词在所有语言中都会经常同时出现。

因此,如果计算机将这些常常共同出现的单词匹配起来,那么不同语言的图谱彼此之间很相像,仅仅只是叫法不同。计算机可以找到最佳方式,将一种叫法匹配至另一种。这样,你就有了一本双语词典。

新论文提出的方法类似,但可以在句子层面进行翻译。

论文中使用了两种训练策略,分别为反向翻译和去噪声。在反向翻译训练中,一种语言的句子被粗略翻译成另一种,随后再反向翻译回来。如果反向翻译的句子与原始句子不同,那么神经网络就会调整,在下次翻译时力求让结果更接近。去噪声方法与反向翻译类似,但并不是将一个句子来回翻译,而是向句子中插入“噪声”(打乱单词或插入单词),随后再将翻译后的句子再翻译回来。通过两种方法的结合,神经网络就可以了解语言的更深层结构。

两篇论文的技术之间存在些许差异。在训练过程中,巴斯克大学的系统会更频繁地进行反向翻译。由Facebook计算机科学家Guillaume Lample及其同事设计的另一种系统在翻译过程中则加入了额外的步骤。在翻译至其他语言之前,两个系统都可以将原始语言的句子编码为更抽象的表述。不过,Facebook的系统会验证,中间的过渡“语言”是真正抽象化的。Artetxe和Lample均表示,通过应用对方论文中的技术,结果有所改善。

两篇论文提供了唯一的直接可比结果,即3000万句英文和法文之间的双向翻译。两种方法在两个方向上取得的双语评价演习得分(用来衡量翻译的准确性)均约为15分,与谷歌翻译相比要低。谷歌翻译采用了受监督的方法,得分约为40分。而人工翻译的得分通常超过50分。

不过,这要比逐词翻译的结果要好。论文作者表示,通过半监督方法,即在训练中加入数千个平行句子,系统的优化并不难。

Artetxe和Lample表示,除了用于无平行文本的翻译之外,他们的系统还有助于语言的匹配,例如英文和法文之间的匹配。例如,现有材料很可能是一条新闻的不同语言版本,而配对结果可以用于新的领域,例如街头俚语或医学术语。Artetxe论文的合作者Eneko Agirre表示:“这还是在起步阶段,我们刚刚开辟了新的研究方向,因此还不知道未来究竟会通往何处。”

微软亚洲研究院科学家He Di的研究对这两篇论文产生了影响。他表示:“计算机可以在没有人工监督的情况下学会翻译,这令人震惊。”Artetxe表示,他提出的方法与Lample的方法非常类似,这令人惊讶。“但与此同时,这也是件好事。这意味着,这个方法确实是正确的方向。”这两篇论文同一天上传至arXiv。

传送门

Mikel Artetxe论文地址:

https://arxiv.org/abs/1710.11041

He Di论文地址:

http://papers.nips.cc/paper/6469-dual-learning-for-machine-translation

本文作者:维金 
原文发布时间:2017-11-30
相关文章
|
10月前
|
Web App开发 人工智能 API
工具推荐:一款强大的AI翻译插件
工具推荐:一款强大的AI翻译插件
765 0
工具推荐:一款强大的AI翻译插件
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
|
1月前
|
人工智能 JavaScript API
一个接口白嫖四个AI平台, 五个翻译平台
薅夷长技以制夷, 要大薅,快薅,多薅,苦薅,实薅,加油薅,没有了薅字,薅仔就不配当薅仔。薅字当头,薅就完了,就薅
58 3
|
4月前
|
人工智能 前端开发 PyTorch
构建自己 AI 翻译助手取代谷歌翻译
构建自己 AI 翻译助手取代谷歌翻译
57 0
|
9月前
|
Web App开发 人工智能 API
有了这个AI翻译插件,我把其他的翻译工具都删了
有了这个AI翻译插件,我把其他的翻译工具都删了
253 0
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
百万中小商家用AI翻译,让国货出海
百万中小商家用AI翻译,让国货出海
103 0
|
10月前
|
人工智能 自然语言处理 达摩院
顶会点赞!AI翻译迎来新突破
顶会点赞!AI翻译迎来新突破
83 0
|
人工智能 JavaScript API
AI 加成?翻译贼 6?deepl 踩坑记
昨儿个老板突然让把某官网文档翻译成英文,文档是 markdown 写的,好像有上百篇吧,人工翻译是不可能了,所以找到了 deepl 的 API,打算让我脚本快速翻一下。所以就成功让我水出了本篇。
|
11月前
|
人工智能 自然语言处理 文字识别
Axure原型分享:AI翻译平台
Axure原型分享:AI翻译平台
|
机器学习/深度学习 人工智能 监控
AI:Algorithmia《2020 state of enterprise machine learning—2020年企业机器学习状况》翻译与解读
AI:Algorithmia《2020 state of enterprise machine learning—2020年企业机器学习状况》翻译与解读
AI:Algorithmia《2020 state of enterprise machine learning—2020年企业机器学习状况》翻译与解读

热门文章

最新文章