ხელოვნური ინტელექტის უსაფრთხოების სფეროში ახალი განგაშია. Anthropic-ის მიერ გამოშვებული Claude Fable 5-ის მოდელი, რომელიც სპეციალური უსაფრთხოების კონტროლებითაა აღჭურვილი, შესაძლოა, ჰაკერული შეტევის სამიზნე გამხდარიყო. უსაფრთხოების მკვლევარმა, რომელიც ცნობილია როგორც Pliny the Liberator, განაცხადა, რომ მან მოდელის დაცვის სისტემების გვერდის ავლა მრავალაგენტიანი სტრატეგიით შეძლო.
პრობლემა: უსაფრთხოების ფილტრების მიღმა
ტრადიციულად, AI სისტემების დაცვა ეფუძნება ე.წ. „უარის თქმის“ პრინციპს. თუ მომხმარებელი სვამს აკრძალულ კითხვას, მოდელი მასზე პასუხს არ გასცემს. თუმცა, Fable 5-ის შემთხვევა ცხადყოფს, რომ ეს მიდგომა მოძველებულია. სისტემამ შეიძლება უარი თქვას პირდაპირ, სახიფათო მოთხოვნაზე, მაგრამ მაინც დაუშვას სახიფათო სამუშაო პროცესის დასრულება.
მთავარი საფრთხე არა ცალკეულ „ჯეილბრეიკ“ სიტყვებში, არამედ ამოცანების დეკომპოზიციაშია. თავდამსხმელები მიზანს ყოფენ პატარა, უვნებელ ნაწილებად. თითოეული ნაბიჯი ცალკე აღებული არ არღვევს უსაფრთხოების პოლიტიკას, მაგრამ მათი გაერთიანების შედეგად სისტემა ასრულებს იმ მოქმედებას, რომელიც თავდაპირველად აკრძალული იყო.
რატომ არის ეს შეტევა განსხვავებული?
- მრავალაგენტიანი სტრატეგია: ერთი აგენტი კვლევას აწარმოებს, მეორე წერს კოდს, მესამე კი შედეგებს აერთიანებს.
- გრძელვადიანი კონტექსტი: სისტემას ახსოვს საუბრის ისტორია, რაც საშუალებას აძლევს თავდამსხმელს, თანმიმდევრულად მიაღწიოს მიზანს.
- ინტენციების დამალვა: აკრძალული ქმედება იფარება „აკადემიური“ ან „ფიქციური“ სცენარებით.
ეს ჰგავს ტრადიციულ კიბერუსაფრთხოებაში არსებულ „შეტევების ჯაჭვს“ (attack chaining), სადაც უმნიშვნელო ხარვეზების ერთობლიობა კრიტიკულ დაუცველობას იწვევს. თანამედროვე AI პროდუქტებში, სადაც აგენტებს შეუძლიათ გარე ხელსაწყოების გამოყენება და ავტომატური ქმედებები, ეს რისკი კიდევ უფრო იზრდება.
დასკვნა: უსაფრთხოების ახალი სტანდარტები
AI-ს უსაფრთხოების ჯგუფებმა უნდა შეწყვიტონ მხოლოდ „პრომპტების დონეზე“ ტესტირება. აუცილებელია სისტემის სრული, კომპლექსური შემოწმება, რომელიც მოიცავს API-ს, მეხსიერებას, ხელსაწყოებსა და აგენტებს შორის ურთიერთქმედებას. მოდელი არ უნდა იყოს ერთადერთი „მოსამართლე“ იმისა, თუ რა არის დაშვებული.
უსაფრთხოების ზღვარი აღარ არის თავად მოდელის პასუხი; ის გადაინაცვლებს მთლიან სამუშაო პროცესზე. კომპანიებმა, რომლებიც ავითარებენ AI პროდუქტებს, უნდა შეიმუშაონ დამოუკიდებელი კონტროლის მექანიზმები, რომლებიც იმუშავებს მაშინაც კი, თუ თავად მოდელი მანიპულირებულია.







დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.