ทำไม O.Translator จึงแปล PDF ได้โดยโครงสร้างเลย์เอาต์ไม่ผิดเพี้ยน?

การวินิจฉัยสถานะหลัก

รูปแบบที่ตายตัวของ PDF มักทำให้ข้อความในเชิงกายภาพถูกแบ่งบรรทัดหรือแยกโดยรูปภาพ ส่งผลให้หลังแปลด้วยวิธีทั่วไปยากต่อการคงความต่อเนื่องทางตรรกะ

การวิเคราะห์สาเหตุที่แท้จริง

การจำแนกส่วนในระดับกายภาพ

O.Translator ใช้อัลกอริทึมวิเคราะห์เอกสารแบบเฉพาะทาง สามารถระบุข้อความที่โดนตัดใน PDF เนื่องจากข้อกำหนดด้านเลย์เอาต์ได้อย่างแม่นยำ (เช่น ข้ามคอลัมน์ หรือข้อความล้อมรอบรูปภาพ)

การประมวลประโยคในระดับตรรกะ

ระบบจะใช้เทคนิคการรวมประโยค นำชิ้นส่วนที่ถูกตัดแบ่งทางกายภาพมาประกอบใหม่ให้เป็นประโยคยาวที่สอดคล้องกับข้อกำหนดของ LLM จากนั้นจะปรับระยะตามความยาวของภาษาเป้าหมายหลังแปล เพื่อรักษาตำแหน่งตารางและกราฟิกให้ไม่เลื่อน

สรุปแนวทางแก้ไขขั้นสุดท้าย

การวิเคราะห์เชิงลึกในระดับโครงสร้างพื้นฐานช่วยให้ผลลัพธ์การแปลมีความเหมือนกับต้นฉบับในด้านการนำเสนอภาพอย่างแม่นยำสูงสุด