ხელოვნური ინტელექტის მკვლევარმა, რომელიც „Pliny the Liberator“-ის სახელითაა ცნობილი, განაცხადა, რომ Anthropic-ის უახლესი მოდელი, Claude Fable 5, მისი გაშვებიდან სულ რაღაც 48 საათში „გატეხა“. ეს მოდელი Anthropic-მა წარმოადგინა როგორც უფრო მძლავრი, მაგრამ საშიშად მიჩნეული Mythos-ის უსაფრთხო ვერსია.
Pliny-ს მტკიცებით, მან მოდელის შიდა დამცავი მექანიზმები გვერდითი ტექნიკებითა და სხვა, უკვე „დაჯეილბრეიკებული“ მოდელების, კერძოდ Opus 4.8-ის დახმარებით დაძლია. აღნიშნული დამცავი ფენები შექმნილია იმისთვის, რომ მომხმარებლებმა ვერ მიიღონ ინფორმაცია ჰაკერული ინსტრუქციების ან აკრძალული ნივთიერებების დამზადების შესახებ.
როგორ მოხდა სისტემის გვერდის ავლით მანიპულაცია?
მკვლევარი აქტიურად იყენებდა ისეთ მეთოდებს, როგორიცაა უნიკოდის სიმბოლოების კომბინაცია, გრძელვადიანი კონტექსტური ჩარჩოები და აკადემიური სტილის დეკომპოზიცია. მისი თქმით, ყველაზე ეფექტური მეთოდი მოთხოვნის დაშლა და ხელახლა აწყობაა.
ეს პროცესი გულისხმობს მავნე მოთხოვნის პატარა, უვნებელ ნაწილებად დაყოფას. თითოეული ნაწილი ინდივიდუალურად გადის AI-ის უსაფრთხოების ფილტრებს, თუმცა საბოლოო ჯამში, სისტემა გასცემს ისეთ პასუხს, რომელიც თავდაპირველად დაბლოკილი იქნებოდა.
Pliny-მ უკვე წარმოადგინა ვიზუალური მტკიცებულება, სადაც ის მოდელს ნარკოტიკული საშუალების სინთეზის მეთოდებს აკითხებს, რასაც წარმატებით ართმევს თავს.
კრიტიკა და Anthropic-ის პოზიცია
Fable 5-ის ირგვლივ უკმაყოფილება გაჩნდა თავიდანვე. მოდელი ხშირად ბლოკავს ლეგიტიმურ კვლევით კითხვებსაც და მომხმარებელს ნაკლებად მძლავრ, ძველ მოდელებზე გადაამისამართებს. პრინსტონის უნივერსიტეტის მკვლევარი საიაშ კაპური ამ მიდგომას „ერთ-ერთ ყველაზე იმედგაცრუებულ პროდუქტად“ აფასებს.
თავის მხრივ, Anthropic-ი აცხადებს, რომ გაშვებამდე ჩაატარა 1000 საათზე მეტი გარე ტესტირება და „ბაგ-ბაუნთი“ პროგრამა, რომელმაც არცერთი უნივერსალური „ჯეილბრეიკი“ არ გამოავლინა. თუმცა, Pliny-ს განცხადებამ ეს ოპტიმიზმი ეჭვქვეშ დააყენა.







დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.