ხელოვნური ინტელექტის თანამედროვე მოდელები, როგორიცაა GPT-5, ინფორმაციას „ტოკენებად“ აღიქვამენ. ეს არის რიცხვების მიმდევრობა, სადაც თითოეული რიცხვი ბაიტების კონკრეტულ ჯგუფს — სიტყვას ან მის ნაწილს — შეესაბამება. ტოკენიზაცია მოდელის სწავლებამდე ფიქსირდება, რისთვისაც ყველაზე ხშირად Byte-Pair Encoding (BPE) მეთოდი გამოიყენება.
თუმცა, ტოკენიზაციის ოპტიმალური პროცესის პოვნა თეორიულად რთული, თითქმის შეუძლებელი ამოცანაა. მკვლევარმა ალექს ნიკოლმა ახალი ალგორითმი წარმოადგინა, რომელიც ამ პროცესს მთლიან რიცხვთა წრფივი პროგრამირების (ILP) მეთოდით უდგება.
კვლევის ძირითადი იდეა მდგომარეობს მონაცემთა ნაკრების წარმოდგენაში მთელი რიცხვების ცვლადების სახით. „ფერების“ ცვლადები განსაზღვრავს, შედის თუ არა კონკრეტული ბაიტების თანმიმდევრობა ლექსიკონში, ხოლო „კიდეების“ ცვლადები ტოკენიზაციის პროცესის სტრუქტურას აკონტროლებს. მიზანია ტოკენების ჯამური რაოდენობის მინიმიზაცია.
ავტორის თქმით, ეს პროცესი ძალიან ჰგავს „მოგზაური გამყიდველის ამოცანას“ (TSP), სადაც რთული შემთხვევების ამოხსნა „მკვეთი სიბრტყეების“ (cutting-plane) ტექნიკითაა შესაძლებელი. ნიკოლმა Codex-ის დახმარებით აღმოაჩინა ე.წ. „ციკლური შეზღუდვები“, რაც მნიშვნელოვნად აუმჯობესებს ტოკენიზატორის მუშაობას.
პრაქტიკული შეზღუდვები
მიუხედავად მიღწეული შედეგებისა, მკვლევარი აღნიშნავს, რომ ეს მიდგომა ყოველთვის არ არის ეფექტური. პირველ რიგში, არსებული ტოკენიზატორები ისედაც მიახლოებულია ოპტიმალურთან. მეორეც, ტოკენიზატორი, რომელიც იდეალურია საწვრთნელ მონაცემებზე, შესაძლოა ნაკლებად ეფექტური აღმოჩნდეს ტესტირების პროცესში.
გარდა ამისა, პროცესი ამჟამად მოითხოვს მონაცემთა წინასწარ ტოკენიზაციას, რაც ლექსიკონის ზომის შეზღუდვასთან ერთად, გამოთვლით რესურსებს ზრდის. ნიკოლის ექსპერიმენტები, რომლებიც Mac Studio-სა და Mac mini-ზე ჩატარდა, ადასტურებს, რომ ოპტიმალური ტოკენიზატორის მიღება შესაძლებელია, თუმცა ეს პროცესი ამჟამად საკმაოდ დიდ დროს მოითხოვს.
მომავალი კვლევები მიმართული იქნება უფრო დიდი მონაცემთა ბაზების დამუშავებისა და გამოთვლითი სირთულეების შემცირებისკენ. მიუხედავად იმისა, რომ ეს მეთოდი ჯერჯერობით ექსპერიმენტულ ფაზაშია, ის ახალ გზას უხსნის LLM-ების ტექნიკურ ოპტიმიზაციას.




დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.