回到主页

如何撰写适用于机器翻译的源内容

· Wordbee,Translia

Wordbee提供计算机辅助翻译(CAT)、翻译管理、内容集成等解决方案。要了解将机器翻译融入Wordbee工作流程的各种方法,请与我们联系

迄今为止,机器翻译 (MT) 已成为许多领域和各种类型文本不可或缺的工具:从技术文档到用户制作的内容,从网站到电子商务,从旅游到软件。如果您仍怀疑机器翻译是否适合您,我们建议您看一下“新用户机器翻译检查表”

机器翻译引擎原始译文的质量和译后编辑的最终结果取决于各种因素,其中之一是源内容的质量。因此,文本的预编辑阶段与译后编辑一样重要。

编写适用于机器翻译的内容:回归本始

自机器翻译早期开始以来,使用基于规则的机器翻译 (RbMT) 的公司以及政府机构认识到,以完全可翻译(最重要的是可进行机器翻译)的方式撰写内容至关重要。例如,IBM的用户文档和加拿大METEO系统的天气预报就是如此。

基于规则的机器翻译内容自适应过程引发了第一批受控语言的开发,如Cterpillar基础英语和简化技术英语

但是,要实现受控创作,您不需要开发和实施自己的受控语言。只需遵循基本内容策略和撰写规则,即可实现机器翻译内容自适应的三个主要要素:朴素、一致、简洁

朴素、一致和简洁的组合可转化为一些易于遵循的规则,这些规则在今天仍然有效

  • 句子要短,即不要写多个分句,也不要使用连词。
  • 使用主动语态
  • 保持句子简短
  • 不使用口语短语和习语:机器翻译引擎很难翻译它们,而国际用户也难以理解其含义。此外,消除歧义也是机器翻译系统中尚未解决的问题。
  • 直截了当且用词要保持一致,即不要使用同义词和行话,不要害怕重复;在这方面,包含重复性短句的词汇表非常有用。例如,包含各种短句的安全警告;在软件本地化时,您可能希望将字符串包含在内(就像第一个微软术语表)。
  • 要始终检查文本中是否存在拼写错误和语法错误,并在可能的情况下运行可读性测试

有关示例和详细信息,我们推荐您阅读Uwe Muegge关于Clout(为统一翻译而优化的受控语言)的文章

神经机器翻译:对结构和背景的需求

随着神经机器翻译 (NMT) 的出现,上下文语境成为了王道。神经机器翻译引擎翻译会整个句子,因此可以处理长句子(一些专家说可以使用多达60个单词),虽然一致的术语仍然是一个障碍。

人脑和机器翻译引擎的主要区别是人脑可以猜测。错误,如拼写错误或标点错误,不会妨碍人类读者对文本的理解;而无论机器翻译引擎多么复杂,这些错误对其来说都非常麻烦。

因此,撰写神经机器翻译的文本意味着将最初(即使用基于规则的机器翻译的时候)定义的所有规则推到极致。但最重要的是,要使文本可以进行机器翻译,文本需要在本质上连贯一致。

连贯的文本是每一段都讲得通且对读者来说清晰易懂的文本。另一方面,一致的文本取决于写作风格。

如果您使用拼写不同但含义相同并可互换使用的单词(center/centre、color/colour),这是不一致。如果您先使用一些简短而不连贯的段落,然后句子突然变得更长、文字变得优雅起来,这也是不一致。

信息的一致性也很重要:一辆车不能在一个段落中是棕色,而在下一个段落中变成了绿色。这一点尤其重要,因为神经机器翻译引擎会识别模式:文本的内在一致性有助于提高译文质量。

撰写可机器翻译文本的有用工具

根据您的语言需求,有许多工具可用于受控创作。

除了更传统的工具,如拼写检查器、语法检查器和词汇表,智能创作也值得一试。它是一种人工智能支持的功能,例如可用于Gmail和Google文档的商业版本。它提供针对用户写作风格量身定制的个性化建议。如果集成在翻译平台上,它还可以帮助重复利用资源,如翻译记忆库和词汇表。

如果您想撰写简短有效的文本,或者如果英语不是您的第一语言,Hemingway应用程序WriteFull可以帮助您让保持句子保持异常简洁。

Acrolinx是另一种更复杂的(而且相当昂贵的)工具。还有各种工具可帮助您组织技术内容,如OxygenAdobe FrameMaker

最后一个需要记住的元素是可读性指数,它是文本阅读难度的估计值。此指数通常是通过计算单词长度、句子长度和音节数量等属性得出的。学术文本比用户手册更为复杂。因此,学术文本的可读性指数会高于一般内容,如电影评论或体育文章。

顺便说一下,本文的可读性指数是44.7。请自行检查一下

总之,撰写可机器翻译文本的意思,用威廉·齐斯纳的话来说,是要写得通顺

Wordbee是一个翻译管理系统和计算机辅助翻译工具,其解决方案旨在满足最苛刻的企业要求。如果您是企业,并且怀疑您有与本地化和翻译相关的工作流或管理问题,请联系我们了解更多详细信息。

所有文章
×

还剩一步!

确认邮件已发至你的邮箱。 请点击邮件中的确认链接,完成订阅。

好的