Formát PDF po preklade: rozhádzané rozloženie, nečitateľný text, prekrývajúce sa písmená? Odhaľujeme podstatu AI technológie na rozpoznávanie dokumentovej kostry.
Diagnostika aktuálneho stavu
“Podstatou PDF je „elektronická tlačenina“, kde je text rozmiestnený v súradnicovom systéme, nie podľa prúdiacej logiky.”
Analýza základných príčin
Vizuálna analýza kostry (DLA)
Pomocou modelov počítačového videnia „skenujeme“ celú stránku a určujeme fyzické hranice hlavičiek, piat, ilustrácií a blokov hlavného textu.
Zhrnutie konečného riešenia
Tajomstvo nezmeneného rozloženia spočíva v tom, že znovu konštruujeme dokumentový súradnicový systém podporujúci viac jazykov.