PDF ფორმატი ათწლეულებია, რაც დოკუმენტების გაცვლის სტანდარტად იქცა. თუმცა, მისი ტექნიკური ბუნება, რომელიც მხოლოდ გვერდზე გლიფების განლაგებას განსაზღვრავს, თანამედროვე ტექნოლოგიურ გამოწვევებს ვეღარ პასუხობს. დღეს, როდესაც დოკუმენტების უმეტესობას ხელოვნური ინტელექტის მოდელები — ChatGPT ან Claude — ამუშავებენ, PDF-ის სტრუქტურული გაურკვევლობა სერიოზულ ბარიერად იქცა.

პრობლემა: ვიზუალი vs. მონაცემები

როდესაც მომხმარებელი PDF-ს ხელოვნური ინტელექტის ხელსაწყოს აწვდის, მანქანამ თავად უნდა გამოიცნოს, სად მთავრდება სათაური და სად იწყება ტექსტის ძირითადი ნაწილი. ტრადიციული PDF-ები არ შეიცავს ინფორმაციას დოკუმენტის იერარქიაზე. შედეგად, ტექსტის ამოცნობისას ხშირად ირღვევა წინადადებები, იკარგება ცხრილების ფორმატირება და ბულეტები ჩვეულებრივ აბზაცებად გარდაიქმნება.

Adaptive PDF-ის კონცეფცია

ახალი მიდგომა, სახელწოდებით „Adaptive PDF“, იყენებს PDF-ის სტანდარტში 2001 წლიდან არსებულ, თუმცა აქამდე ნაკლებად გამოყენებულ ფუნქციას: „ჩანაცვლების ტექსტს“ (Replacement Text). იდეა მარტივია: ფაილი შეიცავს ორ ფენას. ადამიანისთვის დოკუმენტი გამოიყურება ისე, როგორც ჩვეულებრივი PDF, ხოლო მანქანური კითხვის სისტემებისთვის (როგორიცაა PyMuPDF ან Poppler) ის აბრუნებს სუფთა Markdown კოდს.

  • ვიზუალური იდენტურობა: ფაილი არ იცვლება ვიზუალურად და არ საჭიროებს ახალ გაფართოებას.
  • სტრუქტურული სიზუსტე: სათაურები, ცხრილები და სიები მანქანისთვის უკვე მარკირებულია.
  • ინფორმაციული სიმკვრივე: ტოკენების რაოდენობა არ იცვლება, თუმცა ინფორმაციის ხარისხი იზრდება.

ტესტირებამ აჩვენა, რომ ამ მეთოდით დამუშავებული დოკუმენტები LLM-ებს საშუალებას აძლევს, ზუსტად ამოიცნონ დოკუმენტის სტრუქტურა. ეს ნიშნავს, რომ ხელოვნურ ინტელექტს აღარ უწევს „გამოცნობა“ — ის პირდაპირ იღებს სტრუქტურირებულ მონაცემებს.

შედეგი: ადაპტირებადი დოკუმენტები

ეს მიდგომა ხსნის საჭიროებას, შევინახოთ დოკუმენტის ორი ვერსია — ერთი ადამიანისთვის და მეორე მანქანისთვის. დოკუმენტი თავად წყვეტს, რა ინფორმაცია მიაწოდოს მკითხველს მისი ბუნების მიხედვით. ავტორი ამჟამად მუშაობს Google Docs-ის გაფართოებაზე, რათა ამ ტექნოლოგიის გამოყენება მასიურად გახდეს შესაძლებელი.