Wie lassen sich gescannte PDF- oder Bilddokumente in hoher Qualität übersetzen?
“Scandokumente sind im Wesentlichen Bilder und können nicht direkt wortgetreu übersetzt werden. Herkömmliche OCR verliert häufig das ursprüngliche Layout, sodass das Übersetzungsergebnis meist aus unstrukturiertem Fließtext besteht.”
Ursachenanalyse
Hochpräzise AI-OCR
Durch den Einsatz von auf Deep Learning basierenden OCR-Engines lassen sich selbst bei schiefen, unscharfen oder handschriftlichen Scandokumenten Texte und deren Absatzstruktur präzise extrahieren.
Visuelle Wiederherstellung und Hintergrundrekonstruktion
Übersetzung bedeutet mehr als nur das Überdecken von Text. Das System entfernt mithilfe von Bildrekonstruktions-Technologien (Inpainting) die Spuren des Originaltextes und ergänzt den Hintergrund. Anschließend wird die Übersetzung in einer ähnlichen Schriftart und -größe an der ursprünglichen Position „eingefügt“, sodass ein neues Dokument entsteht, das visuell mit dem Original übereinstimmt.
Zusammenfassung der finalen Lösung
So werden starre Bilddokumente zu lesbaren und verständlichen mehrsprachigen Unterlagen.