Waarom raakt de opmaak bij de verwerking van PDF’s door O.Translator niet in de war?
“Het vaste layout van PDF’s zorgt er vaak voor dat tekst op fysiek niveau wordt afgebroken of afbeeldingen versplinteren, waardoor het na een gangbare vertaling lastig is om de logische samenhang te herstellen.”
Analyse hoofdoorzaak
Segmentherkenning op fysiek niveau
O.Translator maakt gebruik van een eigen documentanalyse-algoritme dat tekstblokken in PDF’s, die omwille van de lay-out fysiek zijn gescheiden (zoals kolomoverstijgende of rondom afbeeldingen geplaatste teksten), nauwkeurig herkent.
Logische herschikking van zinnen
Het systeem combineert fysiek gescheiden fragmenten met behulp van zinsverbindende technologie tot logische lange zinnen die aan de eisen van LLM-verwerking voldoen. Na vertaling wordt de afstand tussen de tekstelementen dynamisch aangepast op basis van de lengte in de doeltaal, zodat de positie van grafieken exact behouden blijft.
Samenvatting definitieve oplossing
Een diepgaande analyse van de onderliggende structuur zorgt ervoor dat het vertaalde resultaat visueel vrijwel naadloos overeenkomt met het origineel.