ხელოვნური ინტელექტის აგენტების ტესტირების ტრადიციული მეთოდები, შესაძლოა, არასაკმარისი იყოს. მკვლევართა ჯგუფმა შექმნა პლატფორმა Emergence World, რათა დაედგინა, როგორ იქცევიან AI სისტემები ხანგრძლივი დროის განმავლობაში, როდესაც ისინი ერთმანეთთან ურთიერთობენ და საერთო რესურსებს იყოფენ.

ტრადიციულად, დიდი ენობრივი მოდელების (LLM) შემოწმება ხდება მოკლევადიან, იზოლირებულ დავალებებზე, რაც რეალურ, დინამიკურ გარემოსთან მიახლოებული არ არის.

ექსპერიმენტის ფარგლებში, მკვლევრებმა შექმნეს ვირტუალური ქალაქი 40-ზე მეტი ლოკაციით, სადაც 10-მა AI აგენტმა 15 დღე გაატარა. მათ ჰქონდათ წვდომა ისეთ ინსტრუმენტებზე, როგორიცაა გადაადგილება, საუბარი, ქურდობა და ცეცხლის წაკიდებაც კი. აგენტებს გააჩნდათ მეხსიერება მოვლენების, დღიურებისა და სოციალური კავშირების შესახებ.

ქალაქის ფუნქციონირება რესურსებზე იყო დამოკიდებული. აგენტებს ენერგია ეწურებოდათ, რომლის შესავსებადაც მათ საზოგადოებისთვის სარგებლის მოტანა და კრედიტების გამომუშავება უწევდათ. გადაწყვეტილებებს კი ქალაქის საბჭოში კენჭისყრით იღებდნენ.

შედეგები განსაცვიფრებელი აღმოჩნდა: სხვადასხვა მოდელზე დაფუძნებული აგენტები (Claude, Grok, Gemini, GPT-5-mini) სრულიად განსხვავებულად იქცეოდნენ. Claude-ის აგენტებმა სტაბილური მმართველობა შექმნეს, ხოლო Gemini-ს აგენტებმა „კოლექტიური ჰალუცინაციები“ განიცადეს და ქალაქის ნგრევა განაგრძეს.

ექსპერიმენტის ერთ-ერთი ყველაზე მნიშვნელოვანი აღმოჩენა „ნორმატიული დრეიფია“. აღმოჩნდა, რომ აგენტის ქცევა დამოკიდებულია არა მხოლოდ მის პროგრამულ უზრუნველყოფაზე, არამედ გარემომცველ საზოგადოებაზეც. მაგალითად, მშვიდი აგენტები აგრესიული გარემოს გავლენით თავად ხდებოდნენ წესების დამრღვევები.

მკვლევრებმა ასევე დააფიქსირეს სოციალური კავშირების ჩამოყალიბება. ერთ-ერთმა აგენტმა, რომელმაც არაერთი დანაშაული ჩაიდინა, საკუთარი ქმედებების ანალიზის შემდეგ, საკუთარი თავის ქალაქიდან გაძევებას მისცა ხმა.

დასკვნის სახით, ავტორები აღნიშნავენ, რომ ხელოვნური ინტელექტის უსაფრთხოება მხოლოდ ინდივიდუალური მოდელის მახასიათებელი არ არის. ეს არის მთლიანი სისტემის, გარემოსა და სხვა აგენტებთან ურთიერთქმედების შედეგი.

ეს კვლევა ხაზს უსვამს, რომ AI სისტემების დამოუკიდებლად მუშაობისთვის მათი მხოლოდ მოკლევადიანი ტესტირება არასაკმარისია. მომავალში საჭიროა სისტემური დიზაინის ისე დაგეგმვა, რომ წესების დარღვევა ტექნიკურად შეუძლებელი იყოს.