神经机器翻译博客系列-第2部分
这篇博客是我们关于神经机器翻译系列的第二部分,以及它对服务于生命科学产业的lsp的影响。找到第一部分关于NMT你需要知道的一切.
在我们对NMT的介绍中,我们概述了神经机器翻译模型,它的发展,以及围绕它的使用最常见的误解。现在,我们将注意力转向NMT功能,并查看它最适合于哪些特定应用程序。
选择的问题
神经机器翻译模型的目的是自动将文本从一种语言翻译成另一种语言。目前的NMT算法的功能是将书面源文本转换为向量,并在它们之间建立神经网络。然后,算法根据这些连接的强度选择正确的翻译,这些连接是使用训练数据开发和加强的。
下面的图1 (Pielmeier和Lommel, 2019)概述了使用MT引擎的此工作流的基本版本。
即使在最基本的层面上,MT模型的实现也需要几个元素,包括训练材料、人工后期编辑以及引擎本身。这表明,任何机器学习技术的成功都依赖于正确的选择和定制。与其将NMT视为一刀切的解决方案,用户还不如通过将算法与特定行业或公司的要求相匹配来获得最大的利益。换句话说,充分利用NMT是一个选择的问题。
选择合适的引擎
推出机器翻译服务的起点是选择正确的引擎。有许多供应商提供各种各样的服务,从开源和基于云的软件,到带有向导的预测建模引擎、可视化工具和许多其他功能。
它们的编程也不同:应用程序,例如摩西由欧盟委员会资助的谷歌使用统计模型,而谷歌的大部分翻译服务都依赖神经网络,包括谷歌Translate和谷歌Cloud AutoML translation。因此,机器翻译有多种可能的应用,每个可用的引擎都是针对特定的需求而设计的。大多数这些应用程序还允许高度的自定义。lsp不应该依赖于现成的软件,而是应该构建动态的、特定于领域的引擎,以适应其或其客户的需求。
选择正确的训练数据
我们在第一部分中谈到了深度学习,并强调了引擎训练对于任何自动化应用程序的重要性。这在NMT中是最重要的。据说NMT的输出只与其训练数据一样好(Bond, 2020),“垃圾输入,垃圾输出”(GIGO)的计算思想非常有名,已被收录在牛津英语词典中。由于引擎依赖于训练数据来建立并随后加强其向量之间的连接,因此训练材料的高质量至关重要。
然而,虽然训练数据的质量很重要,但选择正确的文本类型也很重要。机器翻译引擎最好处理范围足够窄的文本,以产生适当的结果,避免无意义的文本。例如,生命科学的NMT算法应该专门针对用户领域的监管或临床试验文件进行训练,而不是一般的医学文本。反过来,这减少了数据噪声对MT训练的负面影响(同上),并减少了后期编辑所需的时间。
在这方面,lsp具有相当大的优势,受益于大量的遗留翻译档案、翻译记忆库和词汇表。由于这些翻译已经经过了严格的质量控制,是理想的培训材料。此外,文档的范围很窄,并且是特定于领域的,同时也有足够的变化,从而允许引擎学习并在生成翻译输出时进行概率预测。
为生命科学翻译训练NMT引擎
我们建立了NMT引擎的最佳训练数据必须是“刚刚好”,介于过度一般和限制性狭窄之间。现在我们来看看生命科学行业中常见的文件类型,这些文件适合自动翻译。
下面的图2概述了不同的文档类型如何需要不同的人工和机器参与来进行翻译。基于此,我们可以推断,机器翻译似乎最适合于重复的、术语更有限、相对没有细微差别的风格语言的技术文档。另一端是创造性翻译,或被认为是高风险的文本,在这些文本中,人工翻译是强制性的。这可能包括监管文件、临床试验文件或医院报告的翻译。
对于其他各种文件,机器翻译仍然是一个省时又省钱的选择:
- 批记录
- 生产文件
- 用户指南/手册
- 验证文件
- 信件和电子邮件
- 检验报告
- 医学论文
- IFUs
- ADR电子表格
- 连续油管
- CMC docs /信
- 内部培训材料
- 网站
- 分析文档
- 报销的形式
- 审计报告
- 许可证、测试报告
- 风险评估文件
- 技术文档
- CIOMS形式
- 求职信
- 标准作业程式
NMT与语言
定制NMT引擎的部分过程是选择能够始终产生准确结果的语言对。选择合适的语言对取决于几个因素,其中最重要的因素可能是翻译人员的可用性和培训数据的量。考虑到机器学习需要大量高质量的例子来进行训练,很少或不太常见的口语将处于不利地位:由于构建和训练可用引擎的内容较少,生成的翻译将不那么准确,听起来也不那么自然广泛使用的语言.由此可见,NMT的最佳语言具有全球影响力,西班牙语、法语和中文处于熟练机器翻译输出的最前沿(图3)。
这一要求使得NMT成为lsp的可靠工具。与自由语言学家不同的是,自由语言学家通常会受到他们工作语言的限制,lsp可以使用各种语言组合的大量训练数据。lsp还受益于更强的质量控制和后期编辑能力,并可以在后期编辑过程中与自己有经验的翻译人员一起工作。
Pivot vs 0 - shot机器翻译
然而,有一些进展使MT可用于不太常见的语言对。其中,pivot和零镜头MT的重要性越来越大,因为它们的目标是为训练数据集不存在或太小的语言构建机器翻译模型(Liu, 2020)。
主MT指的是一种语言作为两种语言之间的枢纽或桥梁的方法。在实践中,首先要将语言A翻译成第三种语言C,然后再将其翻译成语言B,才能将语言A翻译成语言B。
另一方面,zero-shotMT的目标是在不进行特定语言对训练的情况下产生直接翻译,而是依赖于系统在训练过的语言之间独立建立连接的能力。尽管这种方法仍处于起步阶段,但它可能是最有前途的首创,将彻底改变机器翻译技术。
接下来是NMT和lsp。
来源
Atanet.org。2017.机器翻译Vs.人工翻译.[在线]可在:
邦德,E, 2020年。剑桥研究人员解决神经机器翻译的性别偏见.(在线)Slator。可从以下网址获取:
刘,CH., 2020。问题#66 -低资源语言的神经机器翻译策略|符号翻译机器.[在线]图标翻译机。可从以下网址获取:
洛梅尔,A., 2017a。神经机器翻译真的和人类翻译一样好吗?.[在线]CSA研究。可从以下网址获取:
洛梅尔,A, 2017b。零镜头翻译比你想象的更重要,也比你想象的更重要.[在线]CSA研究。可从以下网址获取:
Pielmeier, H.和Lommel, A.,“lsp中的机器翻译使用:语言服务提供商如何使用MT的数据”,常识咨询,2019年5月。
Statmt.org。2020.摩西-主/主页.[在线]可在:
作者:项目经理/数字营销主管Raluca Chereji