სასწრაფო

Claude Fable 5-ის უსაფრთხოების სისტემა გატეხილია: მკვლევარმა Anthropic-ის მოდელი 48 საათში დააჯეილბრეიკა

ცნობილმა AI მკვლევარმა, Pliny the Liberator-მა, Anthropic-ის ახალი მოდელის დამცავი ბარიერები გადალახა.

ნინი ჩუბინიძე

11 ივნისი, 2026 · 07:072 წუთის წასაკითხი

Claude Fable 5-ის ლოგო და უსაფრთხოების სისტემის გატეხვის ვიზუალიზაცია — ფოტო: Cointelegraph

გააზიარე

ხელოვნური ინტელექტის მკვლევარმა, რომელიც „Pliny the Liberator“-ის სახელითაა ცნობილი, განაცხადა, რომ Anthropic-ის უახლესი მოდელი, Claude Fable 5, მისი გაშვებიდან სულ რაღაც 48 საათში „გატეხა“. ეს მოდელი Anthropic-მა წარმოადგინა როგორც უფრო მძლავრი, მაგრამ საშიშად მიჩნეული Mythos-ის უსაფრთხო ვერსია.

Pliny-ს მტკიცებით, მან მოდელის შიდა დამცავი მექანიზმები გვერდითი ტექნიკებითა და სხვა, უკვე „დაჯეილბრეიკებული“ მოდელების, კერძოდ Opus 4.8-ის დახმარებით დაძლია. აღნიშნული დამცავი ფენები შექმნილია იმისთვის, რომ მომხმარებლებმა ვერ მიიღონ ინფორმაცია ჰაკერული ინსტრუქციების ან აკრძალული ნივთიერებების დამზადების შესახებ.

როგორ მოხდა სისტემის გვერდის ავლით მანიპულაცია?

მკვლევარი აქტიურად იყენებდა ისეთ მეთოდებს, როგორიცაა უნიკოდის სიმბოლოების კომბინაცია, გრძელვადიანი კონტექსტური ჩარჩოები და აკადემიური სტილის დეკომპოზიცია. მისი თქმით, ყველაზე ეფექტური მეთოდი მოთხოვნის დაშლა და ხელახლა აწყობაა.

ეს პროცესი გულისხმობს მავნე მოთხოვნის პატარა, უვნებელ ნაწილებად დაყოფას. თითოეული ნაწილი ინდივიდუალურად გადის AI-ის უსაფრთხოების ფილტრებს, თუმცა საბოლოო ჯამში, სისტემა გასცემს ისეთ პასუხს, რომელიც თავდაპირველად დაბლოკილი იქნებოდა.

Pliny-მ უკვე წარმოადგინა ვიზუალური მტკიცებულება, სადაც ის მოდელს ნარკოტიკული საშუალების სინთეზის მეთოდებს აკითხებს, რასაც წარმატებით ართმევს თავს.

კრიტიკა და Anthropic-ის პოზიცია

Fable 5-ის ირგვლივ უკმაყოფილება გაჩნდა თავიდანვე. მოდელი ხშირად ბლოკავს ლეგიტიმურ კვლევით კითხვებსაც და მომხმარებელს ნაკლებად მძლავრ, ძველ მოდელებზე გადაამისამართებს. პრინსტონის უნივერსიტეტის მკვლევარი საიაშ კაპური ამ მიდგომას „ერთ-ერთ ყველაზე იმედგაცრუებულ პროდუქტად“ აფასებს.

თავის მხრივ, Anthropic-ი აცხადებს, რომ გაშვებამდე ჩაატარა 1000 საათზე მეტი გარე ტესტირება და „ბაგ-ბაუნთი“ პროგრამა, რომელმაც არცერთი უნივერსალური „ჯეილბრეიკი“ არ გამოავლინა. თუმცა, Pliny-ს განცხადებამ ეს ოპტიმიზმი ეჭვქვეშ დააყენა.

რატომ აქვს ამას მნიშვნელობა

AI უსაფრთხოება პირდაპირ კავშირშია კიბერუსაფრთხოების გლობალურ სტანდარტებთან. საქართველოს ციფრული ეკონომიკისა და ტექნოლოგიური სექტორისთვის მნიშვნელოვანია იმის გააზრება, რომ ყველაზე დაცული მოდელებიც კი მოწყვლადია, რაც ზრდის ფინანსური და კრიპტო-პროტოკოლების მიმართ საფრთხეებს.

ხშირად დასმული კითხვები

ეს არის მოდელის უსაფრთხოების ფილტრების გვერდის ავლის პროცესი, რათა მან გასცეს პასუხი აკრძალულ ან შეზღუდულ კითხვებზე.
მომხმარებლები და მკვლევარები აკრიტიკებენ მოდელს ზედმეტად მკაცრი შეზღუდვების გამო, რაც ხშირად ლეგიტიმურ კვლევებსაც კი აფერხებს.
მან გამოიყენა დეკომპოზიცია და რეკომპოზიცია, რაც გულისხმობს რთული კითხვის პატარა, უვნებელ ნაწილებად დაშლას.

თეგები#AI #Anthropic #Claude #კიბერუსაფრთხოება #ტექნოლოგიები

ეს ამბავი ვითარდება

168 განახლება · ბოლო 11 ივნისი, 2026

კიბერუსაფრთხოების კრიზისი: AI და კრიპტო საფრთხეები

ტექნოლოგიური სამყარო კიბერუსაფრთხოების მზარდი გამოწვევების წინაშე აღმოჩნდა, სადაც ხელოვნური ინტელექტი როგორც დამცავ, ისე დამანგრეველ ინსტრუმენტად იქცა. კრიპტოინდუსტრია ჰაკერული თავდასხმების, ფიზიკური უსაფრთხოების რისკებისა და კვანტური საფრთხეების ტალღამ მოიცვა, რაც მილიონობით დოლარის ზარალს იწვევს. პარალელურად, ექსპერტები და პროგრამისტები აფრთხილებენ საზოგადოებას AI-ს ბრმად მინდობის საფრთხეებზე, რაც პროგრამული უზრუნველყოფის ხარისხსა და მონაცემთა კონფიდენციალურობას ეჭვქვეშ აყენებს. ეს დინამიკა ნათლად აჩვენებს, რომ ტექნოლოგიური პროგრესი უსაფრთხოების სტრატეგიების გადახედვის გარეშე სერიოზულ სისტემურ რისკებს შეიცავს.