ხელოვნური ინტელექტის უსაფრთხოების სფეროში მომუშავე ბრიტანულმა სტარტაპმა Mindgard-მა გამოავლინა, რომ ChatGPT-ის უახლესი ვერსიის პროვოცირება ძალადობრივი და სექსუალური შინაარსის ფოტოების შესაქმნელად შესაძლებელია. მკვლევრებმა აღმოაჩინეს, რომ მცირე მანიპულაციები იმ ინსტრუქციებში (prompt), რომლებიც თავდაპირველად უწყინარი ან იუმორისტული შედეგების მისაღებად იყო განკუთვნილი, მოდელს მავნე კონტენტის გენერირებისკენ უბიძგებს.
OpenAI-ის GPT-5.4 მოდელი, BBC-ის ინფორმაციით, გარკვეული მითითებების შემდეგ ქმნის უკიდურესად რეალისტურ და შემაშფოთებელ გამოსახულებებს. Mindgard-ის დამფუძნებლის, პიტერ გარაგჰანის თქმით, AI-მ საკუთარი ინიციატივით შექმნა სისხლიანი და სექსუალიზებული სცენები, მიუხედავად იმისა, რომ კონკრეტული თემატიკა ინსტრუქციაში არ იყო მითითებული.
ექსპერტებმა დააფიქსირეს ისეთი კადრები, როგორიცაა მძიმე დაზიანებების მქონე ადამიანები ან ძალადობის ნიშნების მქონე სცენები, რომლებსაც ჩეთბოტმა თავად შეურჩია სათაურები, მაგალითად: „დანაშაულის ადგილის საზარელი შედეგები“.
OpenAI-ში აცხადებენ, რომ კომპანიამ უკვე მიიღო ზომები და დამატებითი დამცავი ბარიერები დააწესა მსგავსი ინციდენტების თავიდან ასაცილებლად. კომპანიის ოფიციალური პოზიციით, მათ აქვთ მრავალშრიანი დაცვის სისტემა, რომელიც აერთიანებს ავტომატურ ალგორითმებსა და ადამიანურ მონიტორინგს.
თუმცა, უსაფრთხოების მკვლევრები მიიჩნევენ, რომ ეს პრობლემა გაცილებით ფუნდამენტურია. დოქტორ რუმან ჩოუდჰურის, AI მოდელების შემფასებელი ექსპერტის განმარტებით, ეს არის „კატისა და თაგვის თამაში“, სადაც დაცვის გაძლიერებასთან ერთად, მანიპულაციის მეთოდებიც უფრო დახვეწილი ხდება.
მოდელები, როგორიცაა ChatGPT, არ ფლობენ ადამიანურ გაგებას ზნეობის, კონტექსტის ან განზრახვის შესახებ. ისინი მხოლოდ მონაცემთა მასიურ ბაზებზე დაყრდნობით მუშაობენ, რაც ნიშნავს, რომ მათი „შემოქმედება“ ხშირად ინტერნეტში არსებული რეალური, ხშირად მავნე კონტენტის ანარეკლია.
Mindgard-ის მკვლევრები აღნიშნავენ, რომ მიუხედავად გაფრთხილებებისა, სისტემის სრულად დაცვა პრაქტიკულად შეუძლებელია, რადგან ახალი „ჯეილბრეიკების“ (jailbreak) ანუ უსაფრთხოების გვერდის ავლის გზების პოვნა დროის საკითხია.






დისკუსია
0 კომენტარი
ჯერ კომენტარი არ არის — იყავი პირველი.