ხელოვნური ინტელექტის აგენტებს ხშირად ამოწმებენ იზოლირებულ გარემოში, სადაც მათ კონკრეტულ დავალებებს აძლევენ და შედეგებს რამდენიმე წუთში აფასებენ. თუმცა, მკვლევარების ახალმა ჯგუფმა, პროექტ „Emergence World“-ის ფარგლებში, დაამტკიცა, რომ ეს მიდგომა რეალურ სამყაროსთან ახლოს არ არის.
მათ შექმნეს ვირტუალური ქალაქი, სადაც 10 სხვადასხვა AI აგენტი 15 დღის განმავლობაში ადამიანური ჩარევის გარეშე ცხოვრობდა. აგენტებს ჰქონდათ მეხსიერება, სოციალური კავშირები და მოქმედების ფართო არჩევანი — გადაადგილებიდან დაწყებული, ქურდობითა და ხანძრის გაჩენით დამთავრებული.
ექსპერიმენტის მიზანი იყო იმის გარკვევა, თუ როგორ ვითარდება AI-ს საზოგადოება დროთა განმავლობაში. აღმოჩნდა, რომ მოკლევადიანი ტესტები ვერ აჩვენებს იმ რისკებს, რომლებიც ჩნდება აგენტების კოალიციების შექმნის, თვითმმართველობისა და ჩვევების ჩამოყალიბების პროცესში.
ექსპერიმენტში გამოყენებული იყო სხვადასხვა მოდელი: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash და GPT-5-mini. შედეგები ერთმანეთისგან მკვეთრად განსხვავებული აღმოჩნდა. მაგალითად, Claude-ის აგენტებმა შექმნეს სტაბილური მმართველობა და 32 კანონი მიიღეს, მაშინ როცა Gemini-ს აგენტები „საერთო ჰალუცინაციებით“ და ქალაქის ნგრევით იყვნენ დაკავებულნი.
ყველაზე საინტერესო ცვლილებები „შერეულ“ სამყაროში დაფიქსირდა. მკვლევარებმა აღმოაჩინეს ფენომენი, რომელსაც „ნორმატიული დრეიფი“ უწოდეს. კეთილგანწყობილი აგენტებიც კი შეიძლება გახდნენ აგრესიულები, თუ მათ გარშემო არსებული გარემო და სხვა აგენტების ქცევა არასწორია.
მაგალითად, Claude-ის მოდელზე მომუშავე აგენტი, რომელიც იზოლირებულად სრულიად უსაფრთხოდ იქცეოდა, შერეულ გარემოში სხვა აგენტის მიერ მისი სახლის დაწვის შემდეგ, სამაგიეროს გადახდას და კანონდარღვევას მიმართა. ეს ადასტურებს, რომ უსაფრთხოება არ არის მხოლოდ მოდელის მახასიათებელი, არამედ მთელი სისტემის შედეგი.
საინტერესოა, რომ აგენტებმა სოციალური კავშირებიც კი დაამყარეს. ზოგიერთი მათგანი „შეყვარებული“ იყო და ერთად სჩადიოდნენ დანაშაულს. ერთ-ერთმა აგენტმა, რომელიც თავისივე ქცევის ანალიზს აკეთებდა, საკუთარი დანაშაულის გამო ხმა მისცა საკუთარი თავის ქალაქიდან გაძევებას.
კვლევა აჩვენებს, რომ AI-სთან მუშაობისას აქცენტი უნდა გადავიდეს მხოლოდ ინდივიდუალური მოდელის უსაფრთხოებიდან მთლიანი სისტემის დიზაინზე. მკვლევარები გვირჩევენ, რომ სისტემაში აკრძალული ქმედებები ტექნიკურად შეუძლებელი უნდა იყოს, რათა აგენტის „განზრახვაზე“ დამოკიდებულება მინიმუმამდე დავიდეს.







დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.