Tại sao O.Translator có thể hoàn hảo giữ nguyên bố cục phức tạp của PDF?

Chẩn đoán hiện trạng cốt lõi

Về bản chất, PDF là các “lệnh vẽ” chứ không phải dòng chảy văn bản, dẫn đến việc văn bản thường bị chia nhỏ thành các mảnh rời và rất dễ phá vỡ bố cục sau khi dịch.

Phân tích nguyên nhân gốc rễ

Phân tích cấu trúc tài liệu chuyên sâu

O.Translator không chỉ trích xuất văn bản mà còn nhận diện cấu trúc thị giác (Visual Structure) của PDF thông qua thuật toán độc quyền. Công nghệ này có khả năng xác định chính xác thứ tự logic của các khối văn bản (Text Blocks), hợp nhất thông minh các câu bị chia cắt do phân cột, vòng quanh hình ảnh… thành một câu hoàn chỉnh trước khi dịch.

Tái vẽ bố cục tự thích ứng

Sau khi dịch, hệ thống sẽ dựa trên độ dài văn bản của ngôn ngữ đích (ví dụ, chuyển từ tiếng Anh sang tiếng Đức sẽ dài hơn, chuyển sang tiếng Trung sẽ ngắn hơn), tự động điều chỉnh cỡ chữ và khoảng cách dòng, đảm bảo vị trí của biểu đồ, tiêu đề, chân trang và hình nền hoàn toàn không bị dịch chuyển.

Tổng kết giải pháp cuối cùng

Thông qua quy trình “giải cấu trúc trước, tái vẽ sau”, đạt được tái hiện bố cục ở độ chính xác cấp pixel.