ტექნოლოგიურმა გიგანტმა Huawei-მ ხელოვნური ინტელექტის (AI) აგენტების შესაძლებლობების შესამოწმებლად ახალი ბენჩმარკი შეიმუშავა. სისტემა შექმნილია იმისთვის, რომ გამოცადოს AI-ს უნარი, შეასრულოს რეალური, კომპლექსური დავალებები, რომლებიც ხშირად ადამიანის ჩარევას მოითხოვს.

თუმცა, შედეგები მოულოდნელი აღმოჩნდა. მიუხედავად იმისა, რომ ტესტირება აგენტებისგან დიდ დროსა და რესურსს მოითხოვს, საბოლოო ანალიზი აჩვენებს, რომ სისტემები ხშირად მარცხდებიან. ეს ბენჩმარკი ფოკუსირებულია არა მხოლოდ ტექსტური პასუხების გენერირებაზე, არამედ პრაქტიკული პრობლემების გადაჭრაზე.

Huawei-ის მიერ შემუშავებული ეს მექანიზმი მკაცრად აფასებს AI-ს ავტონომიურობას. ბევრი არსებული მოდელი, რომელიც სხვადასხვა ტესტში მაღალ ქულებს იღებს, ამ კონკრეტულ გარემოში ვერ ახერხებს ლოგიკური ჯაჭვის ბოლომდე მიყვანას. ეს მიანიშნებს იმაზე, რომ ხელოვნური ინტელექტის განვითარებაში არსებობს მნიშვნელოვანი უფსკრული თეორიულ ცოდნასა და პრაქტიკულ შესრულებას შორის.

ექსპერტების აზრით, მსგავსი ტესტები აუცილებელია ინდუსტრიის განვითარებისთვის. ისინი გვეხმარება გავიგოთ, თუ რამდენად ახლოს ვართ სრულად ავტონომიურ აგენტებთან, რომლებსაც პროფესიული დავალებების შესრულება დამოუკიდებლად შეეძლებათ. ამ ეტაპზე, Huawei-ის შედეგები ადასტურებს, რომ AI-ს ჯერ კიდევ სჭირდება მნიშვნელოვანი გაუმჯობესება.

ტესტირების პროცესი მოიცავს სხვადასხვა სცენარს, სადაც აგენტს მოეთხოვება ნაბიჯ-ნაბიჯ მოქმედება. სწორედ ამ ეტაპზე ვლინდება სისტემური ხარვეზები. Huawei აგრძელებს მონაცემთა შეგროვებას, რათა დაადგინოს, კონკრეტულად რა ეტაპზე წყვეტენ მოდელები პრობლემის ეფექტურად გადაჭრას.