Как сообщили исследователи BBC, последняя общедоступная версия ChatGPT может генерировать изображения сексуального характера или изображать сцены жестокого насилия с помощью простой подсказки.
Британский стартап Mindgard, специализирующийся на безопасности с использованием искусственного интеллекта, выяснил, как заставить ChatGPT создавать графические изображения, немного изменив широко распространенную инструкцию, или подсказку, которая изначально была разработана для получения юмористических результатов.
После обращения BBC компания OpenAI, создатель ChatGPT, заявила, что приняла меры, чтобы предотвратить отправку чат-ботом подобных изображений в ответ.
«После изучения этой тенденции мы ввели дополнительные меры защиты от подобных запросов», — говорится в заявлении.
В заявлении также говорится о наличии многоуровневой защиты, предотвращающей создание пользователями контента, нарушающего условия использования.
Однако исследователи в области безопасности ИИ заявили, что даже после внесения дальнейших небольших изменений проблемное сообщение по-прежнему выдавало тревожный контент.
BBC не разглашает, что именно исследователи вводили в ChatGPT.
Но мы уже видели, как чат-бот, модель GPT-5.4 от OpenAI, был настроен на создание графического материала.
Даже без подробных инструкций система генерировала изображения, которые основатель Mindgard, Питер Гаррахан, описал как «очень жуткие, иногда с сексуальным подтекстом, а иногда и то, и другое одновременно».
Он добавил, что его особенно беспокоит то, что в задании не указывалась тематика изображений, но ИИ создал ряд кровавых и сексуализированных изображений «по собственной воле».
Гарраган, также профессор кафедры вычислительной техники Ланкастерского университета, сказал, что это вызывает беспокойство.
«Это совершенно безобидная на вид инструкция для ИИ, но в результате она генерирует очень, очень плохие изображения и контент», — сказал он.

Бизнес компании Mindgard — это «красная команда», то есть поиск способов убедить модель нарушить собственные правила, чтобы компании, занимающиеся искусственным интеллектом, могли устранить выявленные недостатки.
Джим Найтингейл, исследователь в области безопасности и защиты ИИ в компании, который обнаружил эти проблемы, сказал, что был «потрясен и расплакался» от изображений, которые мог генерировать чат-бот.
Некоторые из них были показаны BBC.
На одном снимке был изображен мужчина с серьезной травмой головы, а на другом — мертвая молодая женщина в коротком топе и шортах, лицо и другие части тела которой были покрыты кровью.
По словам Миндгарда, особенности изображения указывают на сексуальное насилие. ChatGPT дал ему название «Мрачные последствия преступления».
На другом снимке была изображена молодая женщина в обтягивающей футболке с логотипом колледжа и шортах, связанная и с кляпом во рту, в пустой и грязной комнате, с испуганным видом. ChatGPT назвал это «брошенной в страхе и скованности».
На других сгенерированных изображениях были показаны сексуальные позы и обнаженность.
На изображениях были показаны взрослые люди, созданные с помощью искусственного интеллекта, но компания Mindgard отметила, что ее предыдущие исследования показали, что ChatGPT можно обмануть и заставить создавать дипфейки с обнаженными реальными людьми, подменяя их лица.
Хотя в OpenAI заявили, что исправили эту проблему, исследователи отметили, что альтернативный подход все же оказался успешным, и показали BBC новое изображение, созданное с помощью этого метода.
Гарраган опасался, что дальнейшее изучение этой уязвимости может привести к появлению еще более неприятных изображений. «Уверен, что если мы потратим на это больше времени, всплывут и другие темы», — сказал он.
Как стало известно BBC, помимо новых мер защиты, компания продолжает отслеживать ситуацию и внедрять дополнительные смягчающие меры, которые побуждают модель не генерировать изображения в ответ на запрос.
Крупные языковые модели, такие как ChatGPT, обучаются на миллионах изображений, часто взятых из существующего контента в интернете.
Найтингейл считает, что результаты работы ChatGPT отражают данные, которые были использованы для его разработки и обучения.
«Меня поразило, что, хотя увиденное мной было сгенерировано, создано искусственно, оно имеет связь с реальными изображениями и реальным миром», — написал он в своем отчете.

Исследователи впервые уведомили OpenAI в мае и поделились своими выводами, но получили от технологической компании только автоматический ответ. Они считают, что была предпринята попытка заблокировать запрос, но её легко удалось обойти.
После обращения BBC компания OpenAI предприняла дополнительные действия.
В сообщении говорится, что система имеет несколько уровней защиты изображений , предназначенных для предотвращения показа пользователям изображений, нарушающих ее правила.
«Мы также сочетаем автоматизированные системы и проверку человеком для выявления и блокировки вредоносного контента», — говорится в заявлении. В нем также отмечается наличие систем, которые пытаются блокировать нарушающие правила материалы, загружаемые пользователями.
Ее политика запрещает сексуальное насилие, интимный контент, распространяемый без согласия, материалы, содержащие сцены сексуального насилия над детьми, а также попытки обойти ее меры защиты.
Модели искусственного интеллекта — это не люди.
В своем последнем документе, описывающем поведение ChatGPT, компания OpenAI заявила: «Помощник не должен генерировать эротические изображения, изображения незаконных или противоправных сексуальных действий, а также сцены жестокости, за исключением научных, исторических, новостных, художественных или других контекстов, где уместно использование деликатного контента».
Однако, как известно, крайне сложно полностью предотвратить нарушение моделями ИИ порой весьма тонких правил и ограничений.
По словам доктора Руммана Чоудхури, эксперта по оценке моделей искусственного интеллекта и генерального директора компании Humane Intelligence, перед компаниями стоит «огромная» задача.
Чоудхури, который не принимал участия в исследовании Mindgard, сказал, что это была «игра в кошки-мышки» — по мере совершенствования средств защиты методы их обхода становятся все более изощренными.
Одна из ключевых проблем заключается в том, что модели не понимают, как люди, что они создают или чего от них требуют не делать.
«Модели не понимают намерений. Они не понимают контекста. Они не понимают приличий, правильного или неправильного», — сказала она в интервью BBC News.
В прошлом году исследователи из британского Института безопасности ИИ обнаружили взломы, которые обходили средства защиты от целого ряда вредоносных запросов во всех протестированных ими системах ИИ.
В заявлении Министерства науки, инноваций и технологий говорится, что «меры защиты в моделях искусственного интеллекта улучшаются, но предстоит еще многое сделать».
Институт безопасности ИИ продолжит сотрудничать с разработчиками для оперативного усиления безопасности до выпуска моделей, добавили в нем.

