A tradução de documentos PDF resulta em formatação corrompida e sobreposição de texto? A essência do reconhecimento do esqueleto visual de documentos por IA.
Diagnóstico do estado atual principal
“A essência do PDF é ser um 'impresso eletrónico', com o texto disperso num sistema de coordenadas, e não num fluxo lógico.”
Análise da causa raiz
Análise do esqueleto visual (DLA)
Através de modelos de visão computacional, 'escaneamos' toda a página para determinar os limites físicos de cabeçalhos, rodapés, ilustrações e blocos de texto principal.
Resumo da solução final
O segredo de uma formatação preservada reside na reconstrução de um sistema de coordenadas documental que suporte múltiplos idiomas.