前几天我的文章中有写网站收录不断掉的问题,尤其是小语种的信息收录不断的掉,所以这周就打算花点时间来测试下小语种翻译的精准度这件事情。这篇文章就简单说下我的思路,以及数据验证的一些方法。

之前我的那个小语种网站,是在英语版本上进行翻译的。且使用的是插件方案,也就是做好英语版本后,使用小语种插件的自带翻译功能,将英语版本翻译成各自的小语种版本。

然后我周末花了点时间仔细研究了那个插件的翻译机制,发现这款插件使用的是谷歌翻译的 API,将网页内容翻译完成后再填充到页面的。

1726025157-4ffce04d92a4d6c

这就有点不妙了,毕竟谷歌翻译的内容质量还是有待商榷的。比如上图这个案例,谷歌翻译在很多语句的细节上做不到「信雅达」,它只是生硬的将英文翻译成中文而已。

所以昨天就干脆将全部的小语种全部删了,不破不立嘛。然后打算自己通过身份设定来训练下 Prompt,从而再将其运用到自己的小语种网站上面。

1726025830-2d8a2b5546ff47d但问题也就出来了,我现在好像还没有找到一款合适的能集成 OpenAI 的小语种插件。也就是说,后续的小语种的翻译工作,我都需要自己手动去完成。

当然,看到这里肯定会有朋友说,要不要试试 DeepL,这个比谷歌翻译强很多的翻译软件。

其实这个方案我昨天晚上就已经试过了,总体来讲翻译的效果要比谷歌翻译好太多了,但是有个问题不得不承认,就是真的太贵了。

小语种翻译的精准度 1

我昨天晚上申请了 Pro 版本 API,并将其整合到自己的网站上。试用没问题后,大约翻译了 40 多个页面吧(翻译成法语),就消耗了 60 多万次字符了,计费账单就显示需要支付 17 美金。

当时看到那个账单真的有点不敢相信,毕竟我的网站现在有 150 多个页面,就法语这个单一站点而言,全部翻译完可能就需要 60 美金左右。试想我要是做 10 个小语种版本呢,成本不得 600 美金?

所以后续我还是想以 OpenAI API 为主,通过将网页上的内容整理好,并利用训练好的 Prompt,得到自己想要的小语种数据。等数据勘验无误后,再手动整理到小语种版本上去。

当然,这套方法我现在还没玩熟,所以先手动操作来熟悉下整个流程,看看过程中会犯哪些错误,并踩踩其中的一些坑。等后续操作熟练后,再来看看能不能有什么自动化的方案。

现在初步的设想是,利用爬虫将网站源数据抓取下来,并分门别类整理到表格中。等这个过程完成后,再去使用 OpenAI API 的数据处理能力,将文本翻译成对应的小语种文案。

至于小语种文案的更新,我可能会考虑使用 RPA 的方案去做。毕竟都是些规律性的操作,完全可以使用程序去自动化掉,节省自己的时间与精力。

后续看看这种方案做出来的小语种网站的数据情况到底如何,两相对比一下(上一版本的小语种数据已经整理好了),就能知道个大概了。

发表回复

后才能评论