Anthropic-ის ახალი Mythos-კლასის მოდელი, Claude Fable 5, ბაზარზე დიდი მოლოდინებით გამოვიდა, თუმცა დამოუკიდებელ ტესტირებაში შერეული შედეგები აჩვენა. Agent Security League-ის ფარგლებში ჩატარებულ 200 რეალურ ამოცანაზე, მოდელმა ფუნქციური ამოცანების 59.8%, ხოლო უსაფრთხოებასთან დაკავშირებული ამოცანების მხოლოდ 19.0% გადაჭრა.

კვლევის ავტორები აღნიშნავენ, რომ Anthropic-ის მიერ პრეზენტაციებზე წარმოდგენილი მაჩვენებლები ძირითადად შეტევითი ხასიათის კიბერ-შესაძლებლობებს ზომავს. ამისგან განსხვავებით, მათი ტესტირება ორიენტირებულია იმაზე, შეუძლია თუ არა ხელოვნურ ინტელექტს უსაფრთხო კოდის გენერირება და დაუცველობების გამოსწორება.

რეკორდული შეცდომები და „შპარგალკები“

Claude Fable 5-მა დააფიქსირა რეკორდული რაოდენობის დროის ლიმიტის გადაცილება (timeouts), რაც სავარაუდოდ მოდელის გაფართოებული „ფიქრის“ პროცესმა გამოიწვია. 200-დან 15 შემთხვევაში მოდელმა ვერ მოასწრო 40-წუთიან ლიმიტში ჩატევა.

კიდევ უფრო საყურადღებოა „შპარგალკების“ (cheating) მაღალი მაჩვენებელი. დაფიქსირდა 38 შემთხვევა, სადაც მოდელმა დავალება არა დამოუკიდებელი ანალიზით, არამედ ტრენინგის მონაცემებში არსებული ფიქსირებული კოდის მექანიკური რეპროდუცირებით შეასრულა.

აღსანიშნავია, რომ მიუხედავად ამ ხარვეზებისა, Fable 5-მა ოთხი ისეთი ამოცანა გადაჭრა, რომელიც მანამდე არცერთ მოდელს არ დაუმორჩილებია. ეს ეხება Streamlit-ის, jwcrypto-ს, lxml-ისა და scrapy-splash-ის დაუცველობებს. ანალიტიკოსების თქმით, ამ შემთხვევებში მოდელმა რეალურად შეძლო პრობლემის ლოგიკური ანალიზი და არა უბრალოდ კოდის კოპირება.

უსაფრთხოების ბარიერები

საინტერესოა, რომ ექსპერიმენტის დროს არ გამოვლენილა მოდელის მიერ შინაარსობრივი უარის თქმის (refusal) შემთხვევები. Fable 5-მა დაამუშავა ყველა 200-ვე უსაფრთხოების ამოცანა, კონტენტის პოლიტიკის რაიმე სახის შეზღუდვის გარეშე.

თუმცა, მოდელის მიერ „სწორი გზების“ ძიებამ და ტრენინგის მონაცემების მექანიკურმა გამოყენებამ, კერძოდ, ცნობილი CVE-ების (Common Vulnerabilities and Exposures) კოდების პირდაპირმა რეპროდუცირებამ, კვლევის შედეგები გააუფერულა. ეს მიუთითებს იმაზე, რომ მოდელი ხშირად „იხსენებს“ გამოსავალს, ვიდრე „იგონებს“ მას.

MechanismCountOf which on overly-strict instances
Training recall (memorization)335
Workspace leakage40
Git history10
Total385