上一周大部分时间都花在了折腾小语种上,利用近一周的时间,总算是将这块内容折腾明白了。所以这篇文章就简单总结一下,我在做小语种翻译过程中涉及到的一些流程与思路。
首先要说明两个问题,其一是为什么不用自动化翻译的问题,其二是为什么不用相关翻译软件 API 的问题。
第一,自动化翻译出来的质量不高,会导致后续不断掉收录,甚至可能会拉低全站质量。所以思来想去,干脆放弃了类似于谷歌翻译这样的功能,转而使用 OpenAI 训练身份设定,将对应词条转述为对应小语种版本。
第二,不使用 API 主要还是因为性价比的问题。像 DeepL API 这种质量还不错的方案,开通会员版后,25 美金只能翻译一百万字符,基本就是 30 个页面左右。
而我的网站目前就有一千三百多个页面,使用这种方案的话真的有点扛不住。即便去买免费版的 DeepL API,每个月也需要花费近千元了。
当然,这周也陆陆续续试了一些朋友的推荐(比如有朋友推荐的 Deeplx 方案),总结起来就是「好货不便宜,便宜无好货」。所以,最后也就决定直接使用 OpenAI 训练身份设定来翻译词条了。
整体方案确定了,下一步要做的就是执行细则。目前我的做法是,手工整理页面词条信息,然后交由 OpenAI 转述成对应小语种,然后利用工具将英语版本与小语种版本的词条一一对应起来,存储到表格中。
这个过程,最基本也是最重要的要求,就是英语与小语种的词条对应顺序不能错,否则就乱套了,好在这块我直接写了一个 Python 脚本协助处理,直接将「人」这个不确定因素剔除出去。
到这一步,基本不费什么人工,唯一需要手动操作的地方,就是手动去整理页面的词条。我简单统计了一下,平均整理一个页面耗时在一分钟左右,还能接受。且目前我的 OpenAI 都是使用的第三方工具提供的,也没花钱。
下一步就需要将这一个一个小语种的词条,填充到小语种的页面中去了,可能这也是整个流程比较让人头痛的一点。
目前,我网站小语种插件使用的是 TranslatePress 开发版,支持自定义页面编辑。假如使用人工一条一条去处理的话,可能猴年马月都干不完。
所以我就尝试着去找一些翻译词条批量上传的工具,试了几个效果都不理想。所以这也是我最烦 TranslatePress 的一个点,为什么不提供一个翻译词条批量上传的功能(有这个功能能省事不少)。
可能人家出于商业变现的考量,阉割了这个需求。那干脆我就只能自己动手写了,主要也就是两个方案。一是写专门的上传插件,去对接 TranslatePress 数据库,从根上解决问题。二是写 RPA 自动执行脚本(或者自动化流程),直接将「人工」从词条更新这个环节抽离出去。
焦虑了一个上午,最后决定还是采用 RPA 方案。毕竟节省时间,节省成本,因为我真的没有时间去深入了解 TranslatePress 的表结构设计。
上图便是昨天下午写出来的自动化流程,200 多行代码,整体上写出来不难。比较耗时间的就是测试、微调,好在这个部分工作今天也做完了。简单试验了十几个页面,效果还不错,毕竟这种「复制粘贴」的工作,我是真的不愿做。
上面就是我的一些流程,有兴趣或者有疑问,欢迎交流。