article_image

注意:本文不谈论任何类 GPT 的工具。谈论任何问题都扯上人工智能,就像吃任何东西都拌入一勺味精一样,是缺乏品位乃至心虚胆怯的证据。

只送大脑。——《三体》

翻译服务如今已司空见惯,不过,PDF 文件因其格式特殊,依旧不易下手,通常只能在几家主流服务中选一个不那么糟糕的碰碰运气。^1相较之下,Google 的免费——甚至无需登录——额度较为大方,300页以内的文档可以正本翻译,就算要翻译整书,大不了拆成两三本。^2

但扫描版 PDF——本文显然在讨论已经 OCR(光线字符识别)处理过的 PDF,若无,通常须先处理——却依旧啃不动。这类文件,即便页数不多,却容易触及 Google 的另一个限制:体积大小不得超过 10MB。当然,我毫无责备 Google 之意,事实上,就所我见它已经是最大方的了。^3

Alt text
Google 无法翻译超过10MB的文件

扫描版 PDF 之大,在于其图片体积。若将 PDF 视作一份由多个图层组成的拼贴画,那么普通 PDF 就主要是文字图层,偶有一些配图;而扫描版 PDF 每一页皆是图片,待 OCR 处理后方才拥有文字图层,只不过这些文字完全透明,叠在图片上不会阻挡原始内容。一旦以这种材料视角看待 PDF,问题就简单了:我们本就不会处理图片图层,而是仅仅翻译那些透明的文字。

——把这些透明文字提取出来!

Alt text
原PDF和提取出文字的PDF

author_avatar

Lawyer, macOS/iOS Automation Amateur