神经机器翻译博客系列——第1部分
这个博客是我们的新系列的第一部分对神经机器翻译及其影响在生命科学行业物流服务商。
NMT是什么?
神经机器翻译(NMT)是一个使用机器学习方法来自动的翻译文本从一种语言转化为另一个。计算语言学的一个部门,NMT依赖于人工神经网络,自己模仿人类大脑,来预测某些单词序列的可能性。深度学习的MT算法是一个例子:用户可以训练NMT引擎识别源和目标连接使用大型数据集。单词之间的联系加强或削弱通过训练数据集,机器观察这些相关性和适应预测和增加正确翻译的可能性(Lommel, 2017)。
从历史上看,有几个机器学习模型的化身。例子包括全自动机器学习(FAMT),没有人类干预的情况下自动执行,计算机辅助翻译(CAT),完全依靠人工输入和目标是支持而不是取代人类语言学家在翻译工作流程。其中,统计机器翻译(SMT)的主导范式NMT之前,也许最重要的前兆。像神经机器翻译,SMT也依赖于概率语言和mono -和双语培训数据分析“学习”如何成为一名优秀的翻译(c, Costa-jussa Espana-Bonet,核磁共振,2016:6)。然而,人工智能(AI)技术的进步使人们有可能效仿人类神经网络的结构和朝着更为一体化的机器学习方法。
NMT是如何工作的
NMT函数通过预测可能某些单词序列,根据观察到的模式的数据集用于培训。一个关键机制是向量表示。在核磁测井仪,字是转录成向量,每个都有一个独特的大小和方向在编码和解码的过程。引擎分析源文本输入、编码成向量,然后解码成目标文本通过预测可能正确的翻译。
虽然它仍然包含概率模型、NMT区别于其他statistical-based太通过评估输入作为一个整体,而不是将其分隔为子组件。它可以识别单词之间的联系,加强或削弱取决于哪些词出现在一起。因此,一个训练有素的NMT引擎可能最终做出选择基于上下文信息的力量产生准确、高质量的输出。下面的图1轮廓识别连接NMT的过程。
图1:神经网络使用连接强度和翻译的关系(来源:常识咨询公司。)
NMT引擎依靠学习培训材料生产高质量的输出。因此,发动机的性能取决于所使用的数据集的质量培训。这反过来让人质疑的质量太输出,这一问题尤为突出医药翻译,病人的安全是至关重要的。我们看下面NMT更深入的质量标准的部分。
NMT打破神话
任何新技术是容易误解。对NMT尤其如此,机器学习,因为它让我想起AI和人类之间的角色转变。也许正是这个话题的敏感性,产生了误解,往往坚持在公共意识,所以它是值得一看的一些比较常见的神话。
神话1:机器翻译是不够好
一个常见的反对机器翻译是其缺乏质量。批评者认为,翻译生产自动笨拙,笨拙,在最坏的不准确,机器没有能力区分类似的翻译选择或检测意思的细微差别。一个经常被引用的例子是谷歌翻译,被视为一个通用的、单一的机器翻译的例子。因为它不能满足特定需求的专业的行业,许多机器学习从一开始就拒绝。
有三个主要指向解决这些质量问题。
首先,使用定制系统。尽管谷歌翻译模型是最著名的,它不是一个适当的解决方案医疗翻译病人安全和知识产权保护是很重要的。在实践中,物流服务商提供NMT通常通过构建系统,根据顾客的需求。这些引擎domain-trained和特定行业和使用高质量的翻译作为参考,所以高质量的输出。
第二个抗辩是指后编和质量控制(QC)。NMT输出几乎从不最后,除非另有规定,一个专业的翻译将后编和波兰的自动翻译。这样可以确保输出是清晰、准确,而且自然之前经过严格内部质量控制检查。
最后,NMT不是一个放之四海而皆准的方法。重要的是要知道机器翻译是一个很好的解决方案,和那些不太有效。考虑文本的类型、术语和语言要求所有决定太应该使用标准的翻译。例如,文本要求高度的创造力总是应该由翻译人员,而高度重复,可能特别适合NMT技术文档。下面的图2概述了人类与机器翻译的不同的应用程序。
神话2:NMT将取代人工翻译
第一个神话是NMT的另一面很好,它可以取代人工翻译。当然,人工智能的发展极大地改善了机器学习能力,熟练的技术仍然落后于熟练的语言学家。
的一个主要障碍是流利和准确(Lommel, 2017)。通过深入学习和神经网络配置、NMT可以生产流畅、自然的翻译。然而,输出听起来不错可以掩盖准确性问题。引擎会选择这些词与最强的连接节点,尽管他们可能不是事实正确或相关,从而产生翻译最终是错误的。
这个问题是由包括减轻管理NMT项目时后编为一个标准的过程。在这种情况下,一个专门的翻译编辑太输出,使纠正和完善翻译风格上的变化。这样可以确保它匹配翻译可以生产,但更多的,那么成本和时间的方式。
事实上,这比喻NMT的目的,和更广泛的人工智能。而不是看机器翻译作为一种完全消除人类劳动,它使一个混合的方式,人类和机器的工作他们最好的能力。NMT可以完全自动化简单,重复性任务耗时的翻译人员,提高人类的工作更复杂的任务与CAT工具(例如Pielmeier, 2019)。
神话3:NMT只会变得更大更好
而取代人工翻译似乎遥不可及,很多指向的步伐NMT认为技术是研究不可避免的前进。一个主要的球员目前谷歌深度学习的研究的前沿。他们的谷歌翻译平台只是冰山一角的一系列措施涵盖了从健康和生物科学、量子计算和机器人,所以进步是显而易见的。
同时,进展并不需要可用性。许多这些技术仍处于初级阶段,与实际的应用程序在未来仍然在相当远的距离。我们只需要看看的历史太艰苦旅程如何到目前的化身已经。第一个太计划可以追溯到1950年代。花了70多年的启停达到可用的自动输出,在一定条件下。
NMT本身只有开始使用某种程度的规律性早在2016年,已成为近年来更广泛,这说明年轻的技术。这使得预测其未来特别困难,尤其是当考虑到NMT的S -曲线(Lommel, 2017)。
图3:每一轮的MT发展遵循自己的s曲线(来源:常识咨询公司。)
经过全面的考虑,很可能NMT,是否在当前迭代或者更新的版本中,会破坏现有的技术和重新配置未来人机关系。但是关键是调整我们的预期的技术可以实现,什么情况下最好的作品,以及它如何可以集成到人类作为一个整体来工作。
接下来在博客上:如何充分利用核磁测井仪。
来源
Lommel,。,“Neural MT: Sorting Fact from Fiction”, Common Sense Advisory, January 2017.
Lommel, a .和Pielmeier H。,“Selling Machine Translation to Skeptical Buyers”, Common Sense Advisory, February 2020.
Pielmeier, H。,“Debunking Myths about AI”, Common Sense Advisory, May 2019.
Espana-Bonet、c和Costa-jussa,核磁共振,2016年。“混合动力机器翻译概述”Costa-jussa,核磁共振拉普,R。,Lambert, P., Eberle, K., Banchs, R.E. and Babych, B. (eds.) Hybrid Approaches to Machine Translation. Amsterdam: Springer.
DeepAI。2020年。神经机器翻译。(在线)可以在:< https://deepai.org/machine-learning-glossary-and-terms/neural-machine-translation >(2020年9月10日访问)。
Raluca Chereji写的,项目经理。
特色图片来源:“编码图像”马库斯Spiske科技日报(https://techdaily.ca)