სამაგიდო თამაში Magic: The Gathering (MTG) ცნობილია თავისი კომპლექსური წესებითა და სტრატეგიული სიღრმით. ბოლო პერიოდში ტექნოლოგიურმა პლატფორმებმა დაიწყეს კვლევა, თუ რამდენად შეუძლიათ დიდ ენობრივ მოდელებს (LLM) თამაშის პროცესის სრულფასოვანი სიმულაცია.

MTG Bench-ის კვლევამ აჩვენა, რომ მიუხედავად მოდელების მაღალი ინტელექტუალური შესაძლებლობებისა, თამაშის წესების დაცვა მათთვის კვლავ გამოწვევას წარმოადგენს. კვლევის ფარგლებში შეფასდა სხვადასხვა მოდელის უნარი, განეხორციელებინათ ისეთი ქმედებები, როგორიცაა კარტების გათამაშება, „სქრაი“ (scry) და „ტუტორ“ (tutor) ეფექტები.

კვლევის ავტორების აზრით, თუ მოდელი საკმარისად ჭკვიანია თამაშის წესებში გასარკვევად, მას არ უნდა სჭირდებოდეს გარე წესების ძრავა. თუმცა, შედეგებმა აჩვენა, რომ მოდელები ხშირად უშვებენ შეცდომებს, განსაკუთრებით მაშინ, როდესაც საქმე ეხება დროებით ქმედებებს. მაგალითად, ზოგიერთი მოდელი შეცდომით აბრუნებს კარტს დასტაში და შემდეგ თავადვე აღიარებს დაშვებულ შეცდომას.

ტექნიკური გამოწვევები და MCP-ის როლი

ბენჩმარკი იყენებს MCP (Model Context Protocol) სერვერს, რომელიც მოდელებს აძლევს წვდომას საბაზისო ოპერაციებზე. ეს საშუალებას აძლევს AI-ს, დამოუკიდებლად მართოს თამაშის მიმდინარეობა. თუმცა, სისტემური პროცესები იწვევს ხარჯების ზრდას. კვლევის მიხედვით, OpenAI-სა და Anthropic-ის მიდგომები ტოკენების კოტირებაში განსხვავდება, რაც პირდაპირ აისახება ბენჩმარკის ღირებულებაზე.

კვლევის ავტორი ხაზს უსვამს, რომ ზოგიერთი მოდელი ზედმეტად აქტიურია ინსტრუმენტების გამოძახებისას. ეს „over-eager“ ქცევა ხშირად იწვევს შეუქცევად შეცდომებს. როდესაც მოდელი არასწორად გაათამაშებს კარტს, ის ვეღარ ასწორებს მდგომარეობას, რადგან უკვე „იცის“ ინფორმაცია, რომელიც თამაშის წესების მიხედვით, დახურული უნდა ყოფილიყო.

მომავალი პერსპექტივები

MTG Auto Deck-ის პროექტი სრულად AI-ის დახმარებით შეიქმნა, ყოველგვარი ხელით დაწერილი კოდის გარეშე, რაც „vibe coding“-ის ეფექტურობას უსვამს ხაზს. მიუხედავად იმისა, რომ დღევანდელი მოდელები ჯერ კიდევ ვერ ასრულებენ თამაშს სრულყოფილი სიზუსტით, ტექნოლოგიის განვითარებასთან ერთად, მოსალოდნელია, რომ მსგავსი სისტემები გამოყენებული იქნება დეკების ავტომატური ოპტიმიზაციისა და სტატისტიკური ანალიზისთვის.