ხელოვნური ინტელექტის სფეროში ერთ-ერთმა ლიდერმა, კომპანია Anthropic-მა, ოფიციალურად მოიხადა ბოდიში თავისი ახალი მოდელის, Claude Fable 5-ის ფუნქციონირებაში ჩარევისთვის. კომპანია იყენებდა ე.წ. „უხილავ დამცავ მექანიზმებს“, რომლებიც ავტომატურად ამახინჯებდა მოდელის პასუხებს, თუ სისტემა მათ „დისტილაციის“ მცდელობად აღიქვამდა.
დისტილაცია არის ტექნიკა, რომლის დროსაც დიდი და ძლიერი მოდელის მონაცემებს იყენებენ უფრო პატარა, სპეციალიზებული მოდელების გასაწვრთნელად. Anthropic-ის განმარტებით, ამ მექანიზმს ისინი კონკურენტების მხრიდან მოდელის „კოპირების“ თავიდან ასაცილებლად იყენებდნენ.
რა შეიცვალა მომხმარებლისთვის?
მთავარი პრობლემა ის იყო, რომ მომხმარებლები ვერ ხვდებოდნენ, რატომ გასცემდა მოდელი არასწორ ან დეგრადირებულ პასუხებს. სისტემა არ აფრთხილებდა ადამიანს, რომ მისი მოთხოვნა „უსაფრთხოების ფილტრმა“ გაააქტიურა.
Anthropic-ის ახალი პოლიტიკის თანახმად, მსგავსი მოთხოვნები აღარ „დამახინჯდება“. ნაცვლად ამისა, სისტემა ავტომატურად გადართავს მომხმარებელს Anthropic-ის წინა თაობის მოდელზე, Claude Opus 4.8-ზე. კომპანია პირობას დებს, რომ ამ ცვლილების შესახებ მომხმარებელს ყოველ ჯერზე მკაფიოდ შეატყობინებს.
გამჭვირვალობის ფასი
კომპანიის წარმომადგენლების თქმით, „უხილავი“ ფილტრების გამოყენება იყო მცდელობა, სწრაფად გაეშვათ პროდუქტი ბაზარზე, თუმცა ეს გადაწყვეტილება მცდარი აღმოჩნდა.
„უხილავი დამცავი მექანიზმები საშუალებას გვაძლევს, უფრო ვიწროდ დავმიზნოთ რისკები და სწრაფად ვიმოქმედოთ. თუმცა, ეს იყო არასწორი კომპრომისი. მომხმარებელს უნდა ჰქონდეს სრული ინფორმაცია იმის შესახებ, თუ რა შეზღუდვები მოქმედებს და რატომ“, — ნათქვამია Anthropic-ის ოფიციალურ განცხადებაში.
Claude Fable ეკუთვნის Anthropic-ის „Mythos“ კლასის მოდელებს. ეს არის სისტემების ჯგუფი, რომლის მიმართაც კომპანია თავიდანვე განსაკუთრებულ სიფრთხილეს იჩენს. ზოგიერთ სფეროში, მაგალითად, ბიოლოგიასა და ქიმიაში, ეს ფილტრები იმდენად მკაცრი აღმოჩნდა, რომ მოდელი პრაქტიკულად გამოუსადეგარი გახდა მარტივი კითხვებისთვისაც კი.
ამ გადაწყვეტილებას წინ უძღოდა ტექნოლოგიური საზოგადოების მწვავე კრიტიკა. მკვლევრები მიუთითებდნენ, რომ მსგავსი ფარული შეზღუდვები აფერხებს არა მხოლოდ კონკურენტებს, არამედ დამოუკიდებელ მეცნიერებსაც, რომლებიც მოდელის უსაფრთხოებისა და ეფექტურობის შესწავლას ცდილობენ.






დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.