Tại sao O.Translator xử lý PDF mà không gặp lỗi bố cục?
Chẩn đoán hiện trạng cốt lõi
“Bố cục cố định của PDF thường khiến dòng văn bản bị ngắt hoặc hình ảnh bị tách nhỏ ở tầng vật lý, và khi dịch thông thường sẽ rất khó phục hồi liên kết logic.”
Phân tích nguyên nhân gốc rễ
Nhận diện phân đoạn ở tầng vật lý
O.Translator áp dụng thuật toán phân tích tài liệu độc quyền, cho phép nhận diện chính xác các khối văn bản trong PDF bị chia cắt do yêu cầu dàn trang (như văn bản xuyên cột hoặc bao quanh hình ảnh).
Tái tổ hợp câu ở tầng logic
Hệ thống sử dụng công nghệ hợp nhất câu, tái tổ chức các đoạn bị cắt ở tầng vật lý thành các câu dài logic phù hợp cho xử lý LLM, sau khi dịch sẽ tự động điều chỉnh khoảng cách theo độ dài ngôn ngữ đích nhằm đảm bảo vị trí biểu đồ không bị dịch chuyển.
Tổng kết giải pháp cuối cùng
Phân tích chuyên sâu ở tầng thấp đảm bảo rằng kết quả dịch có độ tương đồng cao về mặt trình bày so với bản gốc.