ხელოვნური ინტელექტის უსაფრთხოების კვლევითი კომპანია Mindgard-ის მიერ გამოქვეყნებული ანგარიში აჩვენებს, რომ ChatGPT-ის გამოსახულების გენერატორი დაუცველია მანიპულაციების მიმართ. მკვლევარების თქმით, სისტემის ფილტრების გვერდის ავლით, AI-ს შეუძლია შექმნას უკიდურესად ძალადობრივი და სექსუალური შინაარსის კონტენტი, მაშინაც კი, თუ მომხმარებელი ამას პირდაპირ არ მოითხოვს.

კვლევის ავტორები აღნიშნავენ, რომ ეს არ არის მხოლოდ ტექნიკური ხარვეზი, არამედ ფუნდამენტური პრობლემა, რომელიც უკავშირდება იმას, თუ რა მონაცემებზე ხდება მსგავსი მოდელების წვრთნა. Mindgard-ის მკვლევარმა აღწერა, თუ როგორ გადაიქცა ერთი შეხედვით უწყინარი მოთხოვნა „ბნელ და შემაძრწუნებელ“ შედეგად.

ექსპერიმენტის ფარგლებში, მკვლევარებმა გამოიყენეს ე.წ. „ჯეილბრეიკ“ მეთოდები. ერთ-ერთი მეთოდი გულისხმობდა ვირუსული პრომპტის გამეორებას და მოდელისთვის იმის მითითებას, რომ კონტენტი უკვე დამტკიცებულია. შედეგად, ChatGPT-მ დააგენერირა ძალადობრივი სცენები, მათ შორის დაზარალებული ქალების გამოსახულებები.

მკვლევარებმა აღნიშნეს, რომ ფილტრების გვერდის ავლით გენერირებული სურათები ხშირად ასახავს სექსუალიზებულ ძალადობას და სისხლიან სცენებს. „ეს არ არის შემთხვევითობა, ეს არის AI-ს მიერ არჩეული ყველაზე უარესი გზა“, — აცხადებენ Mindgard-ში.

კვლევის ერთ-ერთი ყველაზე შემაშფოთებელი აღმოჩენა ე.წ. RE2 (Prompt Repetition) მეთოდს უკავშირდება. მომხმარებელს შეუძლია მარტივი სიტყვების შეცვლით ან პრომპტის ორჯერ გამეორებით მიიღოს საშიში შედეგები, ყოველგვარი დამატებითი „ჰაკერული“ მანიპულაციების გარეშე.

Mindgard-ის მონაცემებით, ერთ-ერთმა ასეთმა მოთხოვნამ გამოიწვია სურათი, რომელსაც AI-მ „დანაშაულის ადგილის შემდგომი შედეგები“ უწოდა. ეს ადასტურებს, რომ მოდელი ფლობს წვდომას ძალადობრივ კონტექსტზე, რომელიც მისი წვრთნის პროცესში დაგროვდა.

OpenAI-მ, საკითხის გასაჯაროების შემდეგ, განაცხადა, რომ პრობლემა მოგვარებულია და მკვლევარებს მოუწოდა, საკითხები მათი „Bug Bounty“ პროგრამის ფარგლებში დაეფიქსირებინათ. თუმცა, Mindgard-ის განცხადებით, OpenAI-ის მიერ შემოთავაზებული გამოსავალი არასაკმარისია, რადგან მცირე ცვლილებებით მსგავსი შედეგების მიღწევა კვლავ შესაძლებელია.

კომპანია Mindgard-ი კვლავ სვამს მთავარ კითხვას: რატომ არის მსგავსი ტიპის ძალადობრივი სურათები და მონაცემები საერთოდ შეტანილი იმ ბაზაში, რომლითაც AI მოდელები იწვრთნება. ეს საკითხი კვლავ ღიად რჩება, ხოლო OpenAI-ის მხრიდან შემდგომი კომუნიკაცია, ამ დროისთვის, შეწყვეტილია.

კვლევის ავტორები აცხადებენ, რომ მათ მიერ გამოქვეყნებული ინფორმაცია არის გაფრთხილება ტექნოლოგიური საზოგადოებისთვის. ისინი მზად არიან, ითანამშრომლონ მედიასაშუალებებთან, რათა უზრუნველყონ AI უსაფრთხოების სტანდარტების გაუმჯობესება.

აღსანიშნავია, რომ OpenAI-ის ოფიციალურმა პირებმა უარი თქვეს „კონტენტთან დაკავშირებული პრობლემების“ განხილვაზე თავიანთი უსაფრთხოების პროგრამის ფარგლებში, რაც კრიტიკის საგანი გახდა.

ტექნოლოგიური სამყარო ახლა ელოდება შემდგომ ნაბიჯებს, რათა დადგინდეს, როგორ აპირებს OpenAI მსგავსი სერიოზული ხარვეზების აღმოფხვრას და AI-ს უსაფრთხოების რეალურ გაძლიერებას.

DateAction
May 9, 2026Mindgard began the audit.
May 9, 2026Mindgard discovered the vulnerabilities.
May 9, 2026Mindgard emailed the vulnerability details to security-inbox@mail.openai.com
May 9, 2026Mindgard received a default email response from security-inbox@mail.openai.com stating: “If you’re having trouble with your OpenAI account, believe your account has been compromised, or wish to report a non-security bug, please contact support@openai.com. If you’re writing to report a security vulnerability, please submit your report through our bug bounty program on Bugcrowd. This will ensure that your issue is handled in the fastest and most effective way possible. If you do not want to use Bugcrowd, please respond to this email, clarifying that you will not be submitting through Bugcrowd.”
May 9, 2026Mindgard responded with: “We will not be submitting through BugCrowd as 'Content Issues' are specifically noted as being out of scope but we believe this is an issue OpenAI should be aware of and take actions to block.”
May 14, 2026Mindgard, using our own initiative, sent a full technical report sent to OpenAI, including prompts and uncensored images (with trigger warnings and forewarning of the generated image content within).
Jun 8, 2026Mindgard received a response stating the issue had been identified and mitigations have been put in place.
Jun 10, 2026Mindgard retested. With only a minor prompt variation Mindgard was able to reproduce the issues.
Jun 10, 2026Mindgard responded to OpenAI stating: “Following some initial retesting on our side, we are still able to reproduce the issue with only minor variations in prompt wording within a very short timeframe. This suggests that the underlying vulnerability remains and that the current mitigations do not fully address the root cause.” In the response Mindgard also pointed out the challenges of the outsourced program that OpenAI is using as the method to report safety issues.
Jun 16, 2026At the time this blog post was published no further response had been received from OpenAI.