这是我们关于神经机器翻译(NMT)及其对服务于生命科学行业的语言服务提供商(lsp)的影响的系列文章的第三部分。在“你需要知道的关于NMT的一切,我们提供了一个概览的NMT模型,它的发展,以及最常见的误解围绕其使用。在“如何充分利用NMT”,我们更详细地研究了模型的功能和它最适合的应用程序。
在这篇最新的博客中,我们采访了技术总监索尼娅·里贝罗·希尔(Sonia Ribeiro Hill),讨论了NMT对lsp及其客户的潜在影响,包括仍需克服的挑战。
NMT对DWL的生命科学客户有何影响?
Ribeiro Hill说,NMT有可能对临床研究和药物警戒领域以及监管事务的翻译产生重大影响,特别是在提高速度和效率方面:“例如,NMT以非常有效的方式处理包含大量重复的任何类型的文件,例如实验室报告、手册、伦理委员会和监管机构的信件。它还可以快速翻译大量不良事件数据,而以前这些数据太大而无法快速处理。”
此外,NMT对于任何需要紧急翻译的文件都非常有用:“临床研究期间的最后期限非常紧迫,有时需要在几天内翻译多达25,000个单词。NMT将帮助我们在保持一贯质量水平的同时满足这些最后期限。”
如何确保产品质量?
任何系统输出的质量都与输入数据的质量直接相关,因此,LSP训练NMT引擎的最大挑战之一是需要确保使用“干净”的数据进行训练,这并不奇怪。换句话说,高度准确的源段和翻译段。
正如Ribeiro Hill所解释的那样,“重要的是,引擎不能使用可能对翻译输出产生负面影响的‘嘈杂’或不准确的数据。虽然从神经机器引擎中去除噪声数据是可能的,但这需要仔细和一致的数据维护。”
显然,在输入数据之前验证数据的质量要好得多,但在实践中这样做有多容易呢?Ribeiro Hill说,这取决于LSP及其质量保证(QA)实践。“例如,为了消除噪声数据,DWL在其所有翻译和翻译记忆库上运行广泛的QA,以识别和纠正不一致或分割错误。”
此外,当将译文上传到其基于云的机器翻译平台kantantmt时,DWL首先通过自动化脚本传递所有数据。“它的设计目的是删除所有不必要的信息,如电子邮件地址、标签、数字、专有名称等,并报告任何额外的错误。”这在生命科学领域尤其重要,因为在生命科学领域,患者的医疗记录、商业信息和机密知识产权都存在于送交翻译的文件中。“关键是要保持你的数据是最新的,并且始终保持干净。这是一项耗时但必不可少的工作。”
你们采用什么质量控制措施?
许多不同的质量管理措施可以应用于机器翻译过程中,以保持高质量的翻译:
- 预机器翻译(MT):最初的文档分析删除了可能对机器翻译引擎产生负面影响的元素,例如不清楚的句子。
- MT:memoQ使用高质量训练数据构建的翻译记忆库。
- MemoQ QA:计算机辅助翻译(CAT)工具查找和纠正拼写错误,标签错误等。
- 后编:翻译由专业的翻译/后期编辑进行润色。
- 视觉检查另一层QA由DWL语言专家或项目经理执行。
- 完成文档DWL团队确保翻译符合客户最初要求的摘要。
- 反馈:MT引擎是根据每个客户的偏好定制的。
- 审核批准:翻译人员总是对机器翻译输出的任何更改拥有最终决定权。
- 持续改进翻译记忆库根据反馈和更正进行更新,以提高未来翻译的质量。
- 翻译记忆库的QA:我们进行非常彻底的数据维护检查,一段一段地进行,然后将结果反馈到MT引擎中。
这样的检查不仅是为了确保最终翻译的质量控制,也是为了确保提供给引擎的信息的质量控制,正如Ribeiro Hill解释的那样:“所有这些检查也使我们能够防止未来的错误,因为引擎是用准确的数据训练的。因此,翻译将不断改进。”
人工翻译在NMT中扮演什么角色?
“无论如何,dwl认可的语言学家都参与了最终的输出,”Ribeiro Hill强调。“我们所有的语言学家,包括那些从事NMT输出的人,都通过了ISO-9001审计质量管理体系的认证,其中许多人已经与DWL合作超过15年。”
NMT是译者的工具,而不是替代品,她补充说:“译者是法官,他们的裁决将是最终的翻译。”换句话说,译者的选择将永远超过引擎。“尽管NMT旨在理解文档的上下文,但有时会忽略这一点,因此引擎输出可能无法提供最佳翻译。因此,人工翻译检查机器的工作是至关重要的。”
这可能包括,例如,NMT选择一个不适合翻译文本的预期外行读者的专业词汇,例如“cephalea”。Ribeiro Hill说:“译者会意识到文件的上下文和目标受众,将其纠正为'头疼'。”
所有NMT引擎都是一样的吗?
正如我们在上一篇博客(“如何充分利用NMT”),训练数据的质量和范围是NMT引擎成功的关键。找到高质量的训练数据有多容易?
“对于专业领域来说,这可能很困难,”里贝罗·希尔(Ribeiro Hill)表示赞同。“虽然有大量的干净数据,但这些数据往往非常通用,因此不太可能对专业的生命科学NMT引擎有用。幸运的是,DWL是一家专注于生命科学领域的LSP,这意味着我们可以访问大量匿名、高质量的训练数据,我们可以使用这些数据来清理和部署我们的NMT引擎。”
实际上,这意味着NMT引擎可以准确翻译日常信息(例如,最典型的字母结构)与可以根据相关领域正确翻译具有不同含义的单词和复合词之间的区别。Ribeiro Hill给我们举了一个例子,比如“patty”。在日常用语中,这指的是汉堡包的肉部分。然而,在外科手术中,它是一种在侵入性手术中使用的吸收性海绵。除非经过上下文数据的训练,否则引擎会误译这样的术语。
“在非常通用或非专业的数据上训练NMT引擎可能会给引擎的输出带来歧义。通过只使用高度专业化的语料库,我们确保每个单词或复合词的翻译都是正确的,避免歧义翻译,同时确保我们的翻译与我们的翻译一致。”
未来会怎样?
NMT是一个快速发展和令人兴奋的领域,因此NMT的培训和扩展使用的过程也在不断改进。Ribeiro Hill说:“NMT引擎接受的评估和培训越多,它在翻译专业生命科学文本方面就越好,它将在质量和速度方面为我们的客户带来更多好处。”
这一点很重要,因为大大加快翻译过程可能会导致更高的成本或更低的输出质量。“得益于这项技术,我们的客户可以在同样高水平的翻译质量下从快速周转中受益。”
请联系我们获取更多信息。