O.Translator는 왜 PDF를 처리할 때 레이아웃이 흐트러지지 않을까요?
핵심 현황 진단
“PDF의 고정 레이아웃은 종종 텍스트 흐름이 물리적으로 단절되거나 이미지가 분할되어, 일반 번역 후에는 논리적 연결을 복원하기 어렵게 만듭니다.”
근본 원인 분석
물리적 구분 단위의 인식
O.Translator는 독자적인 문서 해석 알고리즘을 통해 레이아웃상의 필요로 인해 물리적으로 분리된 PDF 내 텍스트 블록(예: 다단, 이미지 감싸기 텍스트)을 정밀하게 식별할 수 있습니다.
논리적 수준의 문장 재조합
시스템은 문장 병합 기술을 활용하여 물리적으로 분리된 단편을 LLM 처리가 적합한 논리적 긴 문장으로 재조합하고, 번역 후에는 목표 언어의 길이에 따라 간격을 동적으로 조정하여 도표 위치가 변하지 않도록 보장합니다.
최종 솔루션 요약
심층적인 하위 계층 분석을 통해 번역 결과가 시각적으로 원본과 매우 정밀하게 일치하도록 보장합니다.