PDF ფორმატი ათწლეულებია სტანდარტად ითვლება, თუმცა მას ერთი ფუნდამენტური პრობლემა აქვს: ის ორიენტირებულია მხოლოდ ვიზუალურ გამოსახულებაზე. დოკუმენტი ინახავს ინსტრუქციებს იმის შესახებ, თუ სად უნდა დაიხატოს სიმბოლოები გვერდზე, მაგრამ მას არ გააჩნია სტრუქტურული ინფორმაცია.

შედეგად, როდესაც ხელოვნური ინტელექტის მოდელები (LLM) PDF ფაილებს ამუშავებენ, მათ უჭირთ სათაურების, აბზაცებისა და სიების ერთმანეთისგან გარჩევა. ეს ხშირად იწვევს ინფორმაციის არასწორ ინტერპრეტაციას.

როგორ მუშაობს „ჭკვიანი“ PDF?

ინოვაციური მიდგომა იყენებს PDF-ის სპეციფიკაციაში ჯერ კიდევ 2001 წლიდან არსებულ ფუნქციას — ჩანაცვლების ტექსტს (replacement text). ეს ფუნქცია თავდაპირველად ლიგატურებისა და სპეციალური სიმბოლოებისთვის იყო განკუთვნილი, თუმცა ახლა ის სტრუქტურირებული ინფორმაციის გადასაცემად გამოიყენება.

როდესაც ადამიანი ხსნის ასეთ დოკუმენტს, ის ხედავს ჩვეულებრივ, ლამაზად დაფორმატებულ PDF-ს. თუმცა, როდესაც ამავე ფაილს ტექსტის ამომცნობი სისტემები ან AI მოდელები კითხულობენ, ისინი ხედავენ სუფთა Markdown-ს. შედეგად, ხელოვნურ ინტელექტს აღარ უწევს გამოცნობა, სად მთავრდება სათაური და სად იწყება ტექსტი.

უპირატესობები მანქანური სწავლებისთვის

ტესტირებამ აჩვენა, რომ PyMuPDF და Poppler-ის მსგავსი ხელსაწყოები წარმატებით კითხულობენ ამ „ფარულ“ შრეებს. მთავარი უპირატესობა არის ინფორმაციის სიმჭიდროვე. ტოკენების რაოდენობა არ იცვლება, თუმცა მათში ჩადებული სტრუქტურული ინფორმაცია მნიშვნელოვნად იზრდება.

  • ვიზუალური იდენტურობა: ფაილი არ იცვლება ვიზუალურად მომხმარებლისთვის.
  • სტრუქტურული სიცხადე: AI მოდელები მყისიერად იღებენ სათაურებს, ცხრილებსა და სიებს.
  • თავსებადობა: მეთოდი არ საჭიროებს ახალ ფორმატს ან ფაილის გაფართოების შეცვლას.

ეს მიდგომა განსაკუთრებით მნიშვნელოვანია დოკუმენტების ავტომატიზებული დამუშავებისას, სადაც სიზუსტე გადამწყვეტია. ავტორი უკვე გეგმავს ინსტრუმენტის განვითარებას, მათ შორის Google Docs-ის გაფართოების სახით, რათა დოკუმენტების „ჭკვიანად“ გარდაქმნა კიდევ უფრო გამარტივდეს.