A tradução de documentos PDF resulta em formatação corrompida e sobreposição de texto? A essência do reconhecimento do esqueleto visual de documentos por IA.

Diagnóstico do estado atual principal

A essência do PDF é ser um 'impresso eletrónico', com o texto disperso num sistema de coordenadas, e não num fluxo lógico.

Análise da causa raiz

Análise do esqueleto visual (DLA)

Através de modelos de visão computacional, 'escaneamos' toda a página para determinar os limites físicos de cabeçalhos, rodapés, ilustrações e blocos de texto principal.

Resumo da solução final

O segredo de uma formatação preservada reside na reconstrução de um sistema de coordenadas documental que suporte múltiplos idiomas.