不是用AI翻译,是用AI做质检——两件事完全不同。
最近几个月,我们在质量管理流程上做了一个实验——
用三个AI,同时对同一批译文做独立质量审查,然后用第四个AI来做最终裁决。
这件事和"用AI翻译"没有关系。说清楚这个区别,是这篇文章最重要的前提。
先说背景:LQA的难点在哪里
在专业翻译流程中,译员在翻译管理系统(TMS)里完成翻译后,项目会进入审校环节——通常由母语审校逐句核查译文质量。
对于术语一致性这个问题,成熟的TMS平台本身就有内置机制:系统会在编辑器里高亮显示术语库词条,系统自带的QA模块也会在交付前自动检测常见错误,比如数字不一致、标点格式、漏译等。
术语和格式问题,成熟的TMS工作流本身就有保障机制。
那AI的价值在哪里?
在我们的实践中,AI的价值体现在TMS标准QA之外的那一层——语义层面的质量判断:
- 这个句子语法没错,但翻得自然吗?
- 技术术语用对了,但放在上下文里合适吗?
- 原文的语气和语调,在目标语言里还保留着吗?
- 整个文件的文风是否前后一致?
这类问题,现有的自动QA工具基本覆盖不到,人工审校也容易因为疲劳或语言背景差异而出现遗漏。
我们是怎么做的
简化版流程:
① 项目在TMS里完成翻译和系统QA后,导出双语对照文件
② 文件进入自动化审查系统,自动识别语言对和内容类型
③ 三个AI并行审查,每个独立运作,互不参考
④ 第四个AI(仲裁模型)汇总三方意见:有多方共识的问题确认保留,仅有一方提出且理由站不住脚的直接驳回
⑤ 输出审查报告,交回给译员和项目经理做最终确认
整个过程,人的角色是裁判——不是被AI替换,而是从逐句检查的工作量中解放出来,专注在真正需要判断的地方。
最有价值的发现:AI意见分歧的地方
运行一段时间后,我们注意到一个规律:
三个AI对同一处都报错 → 几乎可以确定这里有真实问题,值得重点关注。
三个AI意见不一致 → 这里往往是语言本身的模糊地带,没有绝对的对错,正是需要有经验的审校人员来做最终判断的地方。
这个发现改变了我们使用报告的方式:比起AI发现了什么错,三个AI在哪里产生分歧,才是最有价值的信号。
它告诉我们把人工精力放在哪里。
一个容易被忽视的质量维度:跨段落一致性
单个段落看起来没问题的译文,在全篇维度上可能存在隐患。
同一个产品功能描述,在第15段和第230段里用了两种表述——每一种单独看都说得通,但放在一个品牌的完整内容体系里,就是不一致。这对专业形象的损害,有时比一个明显的错误还大。
我们在三模型审查之外,还设置了一个独立的全局一致性扫描,专门处理这类"单段合格、全文不齐"的问题。
结论
这套做法跑下来,最大的收获不是"又发现了多少错误",而是建立了一个不依赖某个人当天状态好不好的系统性审查机制。
翻译质量管理里,最难的不是找到明显的错误,而是保持一致、可预期的质量输出。这是AI辅助真正能帮上忙的地方。
如果你也在思考多语种内容的质量管理问题,欢迎留言或私信交流。
—
传为(Translia)专注多语种翻译与本地化服务,持有 ISO 17100 & ISO 18587 认证,覆盖100+语种。
官网:translia.cn | translia.com