您可以应用某种类型的特征匹配,以单词为特征。使用通常的特征匹配方法(Lowe 比率匹配),您的匹配将丢弃所有出现一次以上的单词。不会有很多。所以也许可以匹配单词组,通过挑选每个单词并从 k 个最近单词中形成一个“特征”(作为集合或其他特征“向量”)。然后您可以估计变换,然后您可以在该变换下,将一个文档中每个单词重新匹配到空间上最近的单词,可能是双向的。考虑变换的怪异性和匹配成本。
我对以那种方式剖析 PDF 的库不熟悉。如果您提供了一些 PDF 和您最喜欢/首选的 PDF 剖析库,我可能会尝试这个想法。-- 如果您有 \'扫描\',您可以对图片进行通常的特征匹配,因为它们是图片。-- 我认为您确实有扫描,并且您可能做了 OCR,但是那些文档以非线性方式扭曲,因此变换不会很好,因此匹配会因此而花费更多。可以设计一种非线性变换。我更喜欢处理源图片而不是它们的 OCR 版本。