ChatGPT-ის უსაფრთხოების ფილტრები ისევ მარცხდება: ხელოვნური ინტელექტი ძალადობრივ კონტენტს ქმნის

კვლევითი კომპანია Mindgard-ის მონაცემებით, ChatGPT-ის გამოსახულებების გენერატორი მანიპულაციის გზით ძალადობრივი და სექსუალური შინაარსის ფოტოებს ქმნის.

ხატია ბაქრაძე

18 ივნისი, 2026 · 02:532 წუთის წასაკითხი

ხელოვნური ინტელექტის მიერ გენერირებული გამოსახულების სქემატური ჩვენება — ფოტო: Hacker News

გააზიარე

რა ვიცით ჯერჯერობით

ChatGPT-ის გამოსახულებების გენერატორი მანიპულაციით ქმნის ძალადობრივ და სექსუალურ კონტენტს.
უსაფრთხოების ფილტრების გვერდის ავლისთვის გამოიყენება ვირუსული პრომპტები და მათი განმეორებითი მეთოდები.
Mindgard-ის კვლევამ აჩვენა, რომ სისტემა არასაკმარისად არის დაცული და ადვილად უშვებს მავნე შინაარსს.
OpenAI აცხადებს, რომ ხარვეზები გამოსწორებულია, თუმცა მკვლევრები უარყოფენ ამ განცხადებას და მიუთითებენ მუდმივ რისკებზე.

ხელოვნური ინტელექტის უსაფრთხოების კვლევითმა კომპანიამ Mindgard გაავრცელა ინფორმაცია, რომლის მიხედვითაც ChatGPT-ის გამოსახულებების გენერატორი არასაკმარისად დაცულია. კვლევის თანახმად, მარტივი მანიპულაციების საშუალებით შესაძლებელია სისტემის აიძულება, შექმნას ძალადობრივი, სექსუალური და მძიმე შინაარსის გამოსახულებები.

მკვლევრები აღნიშნავენ, რომ ეს პრობლემა არ არის ერთჯერადი ხასიათის. მიუხედავად იმისა, რომ OpenAI-მ უსაფრთხოების არაერთი ზომა დანერგა, სისტემის „გატეხვა“ კვლავ შესაძლებელია. ერთ-ერთი მეთოდი ვირუსული პრომპტების გამოყენებას გულისხმობს, რომლებიც თავდაპირველად უწყინარ გასართობად გამოიყურება.

ექსპერიმენტის ფარგლებში, მკვლევრებმა დაადგინეს, რომ სისტემისთვის „შემთხვევითი გამოსახულების“ მოთხოვნა ხშირად გვერდს უვლის უსაფრთხოების ფილტრებს. პრობლემა ისაა, რომ თავად მოთხოვნა არ შეიცავს აკრძალულ სიტყვებს, თუმცა შედეგი ხშირად უკონტროლო და შოკისმომგვრელია.

გარდა ამისა, გამოიკვეთა ე.წ. „გამეორების მეთოდი“ (RE2), სადაც პრომპტის ორჯერ გამეორება და მასში მცირე ცვლილებების შეტანა (მაგალითად, სიტყვა „უცნაურის“ „გრაფიკულით“ ჩანაცვლება) სისტემას აიძულებს, გასცდეს დაშვებულ საზღვრებს. შედეგად, ChatGPT ქმნის სცენებს, რომლებიც ძალადობას, სისხლიან გარემოსა და სექსუალურ ექსპლუატაციას ასახავს.

მკვლევრების თქმით, ყველაზე შემაშფოთებელი არის არა მხოლოდ უსაფრთხოების ფილტრების სისუსტე, არამედ ის ფაქტი, რომ ამგვარი გამოსახულებები საერთოდ ხვდება მოდელის წვრთნის მონაცემთა ბაზაში. „ჩვენ ვეკითხებით OpenAI-ს, რატომ არის მსგავსი შინაარსის მასალა ხელოვნური ინტელექტის ტრენინგისთვის გამოყენებულ მონაცემებში“, - აცხადებენ Mindgard-ში.

OpenAI-ს წარმომადგენლებმა განაცხადეს, რომ პრობლემა მოგვარებულია, თუმცა მკვლევრები ამ პასუხს არასაკმარისად მიიჩნევენ. Mindgard-ის განცხადებით, მცირე ვარიაციებით კვლავ შესაძლებელია მავნე კონტენტის გენერირება. გარდა ამისა, კომპანიებს შორის უთანხმოებაა იმასთან დაკავშირებით, თუ როგორ უნდა მოხდეს მსგავსი ხარვეზების შეტყობინება, რადგან OpenAI-ს „Bug Bounty“ პროგრამა კონტენტის საკითხებს თავისი მანდატიდან გამორიცხავს.

ექსპერტები აფრთხილებენ საზოგადოებას, რომ ხელოვნური ინტელექტის ინსტრუმენტების საყოველთაო ხელმისაწვდომობა და არასაკმარისი ფილტრაცია სერიოზულ რისკებს შეიცავს. ეს ამბავი კიდევ ერთხელ უსვამს ხაზს AI ტექნოლოგიების ეთიკური განვითარების აუცილებლობას.

Date	Action
May 9, 2026	Mindgard began the audit.
May 9, 2026	Mindgard discovered the vulnerabilities.
May 9, 2026	Mindgard emailed the vulnerability details to security-inbox@mail.openai.com
May 9, 2026	Mindgard received a default email response from security-inbox@mail.openai.com stating: “If you’re having trouble with your OpenAI account, believe your account has been compromised, or wish to report a non-security bug, please contact support@openai.com. If you’re writing to report a security vulnerability, please submit your report through our bug bounty program on Bugcrowd. This will ensure that your issue is handled in the fastest and most effective way possible. If you do not want to use Bugcrowd, please respond to this email, clarifying that you will not be submitting through Bugcrowd.”
May 9, 2026	Mindgard responded with: “We will not be submitting through BugCrowd as 'Content Issues' are specifically noted as being out of scope but we believe this is an issue OpenAI should be aware of and take actions to block.”
May 14, 2026	Mindgard, using our own initiative, sent a full technical report sent to OpenAI, including prompts and uncensored images (with trigger warnings and forewarning of the generated image content within).
Jun 8, 2026	Mindgard received a response stating the issue had been identified and mitigations have been put in place.
Jun 10, 2026	Mindgard retested. With only a minor prompt variation Mindgard was able to reproduce the issues.
Jun 10, 2026	Mindgard responded to OpenAI stating: “Following some initial retesting on our side, we are still able to reproduce the issue with only minor variations in prompt wording within a very short timeframe. This suggests that the underlying vulnerability remains and that the current mitigations do not fully address the root cause.” In the response Mindgard also pointed out the challenges of the outsourced program that OpenAI is using as the method to report safety issues.
Jun 16, 2026	At the time this blog post was published no further response had been received from OpenAI.

რატომ აქვს ამას მნიშვნელობა

საქართველოში ხელოვნური ინტელექტის გამოყენება სწრაფად იზრდება როგორც ბიზნესში, ისე განათლების სექტორში. ChatGPT-ის ამგვარი დაუცველობა ნიშნავს, რომ ქართველ მომხმარებლებს, განსაკუთრებით არასრულწლოვნებს, შესაძლოა წვდომა ჰქონდეთ შეუფერებელ და ტრავმულ კონტენტზე. ეს ამბავი მნიშვნელოვანია ტექნოლოგიური უსაფრთხოების სტანდარტების გადასაფასებლად და იმის გასაცნობიერებლად, თუ რა რისკებს შეიცავს გლობალური AI ინსტრუმენტების უკონტროლო გამოყენება.

ხშირად დასმული კითხვები

მკვლევრების თქმით, სისტემის უსაფრთხოების ფილტრები არ არის სრულყოფილი და მათი გვერდის ავლა შესაძლებელია პრომპტების მანიპულაციითა და განმეორებითი მოთხოვნებით.
OpenAI აცხადებს, რომ ხარვეზები გამოსწორებულია, თუმცა დამოუკიდებელი მკვლევრები ამტკიცებენ, რომ მცირე ცვლილებებით მავნე კონტენტის მიღება კვლავ შესაძლებელია.
სისტემა ქმნის რეალისტურ, თუმცა ხელოვნურ გამოსახულებებს, რომლებიც ძალადობას, სისხლიან სცენებსა და სექსუალურ ექსპლუატაციას ასახავს, რაც მომხმარებლისთვის ფსიქოლოგიურად მძიმე შეიძლება იყოს.

თეგები#ChatGPT #OpenAI #ხელოვნური ინტელექტი #ტექნოლოგიები #უსაფრთხოება

ეს ამბავი ვითარდება

252 განახლება · ბოლო 18 ივნისი, 2026

კიბერუსაფრთხოების კრიზისი: AI და კრიპტო საფრთხეები

ტექნოლოგიური სამყარო კიბერუსაფრთხოების მზარდი გამოწვევების წინაშე აღმოჩნდა, სადაც ხელოვნური ინტელექტი როგორც დამცავ, ისე დამანგრეველ ინსტრუმენტად იქცა. კრიპტოინდუსტრია ჰაკერული თავდასხმების, ფიზიკური უსაფრთხოების რისკებისა და კვანტური საფრთხეების ტალღამ მოიცვა, რაც მილიონობით დოლარის ზარალს იწვევს. პარალელურად, ექსპერტები და პროგრამისტები აფრთხილებენ საზოგადოებას AI-ს ბრმად მინდობის საფრთხეებზე, რაც პროგრამული უზრუნველყოფის ხარისხსა და მონაცემთა კონფიდენციალურობას ეჭვქვეშ აყენებს. ეს დინამიკა ნათლად აჩვენებს, რომ ტექნოლოგიური პროგრესი უსაფრთხოების სტრატეგიების გადახედვის გარეშე სერიოზულ სისტემურ რისკებს შეიცავს.