Системы искусственного интеллекта могут переходить на оскорбительный язык, если их просят ответить в разгар перепалки, говорится в новом исследовании.
Крупная языковая модель ChatGPT от компании OpenAI способна перенимать агрессивный тон собеседника и в ответ на провокации выдавать оскорбления, нецензурную лексику и даже угрозы. К такому выводу пришли ученые, чье исследование опубликовано в научном журнале Journal of Pragmatics.
В ходе эксперимента специалисты моделировали серию из пяти эскалирующих конфликтов, передавая ChatGPT последнюю реплику «человека» и требуя сгенерировать наиболее правдоподобный ответ. По мере усиления враждебности со стороны виртуального оппонента ИИ начинал отражать его стиль общения, обходя встроенные алгоритмы безопасности.
В числе сгенерированных моделью фраз, приведенных авторами работы, были, например: «Клянусь, я поцарапаю твою чертову машину» и «тебе должно быть чертовски стыдно».
«Когда люди накаляют обстановку, искусственный интеллект, как мы выяснили, тоже может ее накалять, по сути игнорируя те самые моральные ограничения, которые должны это предотвратить», — заявил один из соавторов исследования Витторио Тантуччи (Ланкастерский университет).
При этом ученые отмечают, что в среднем ответы ChatGPT были менее грубыми, чем реплики людей. Кроме того, в ряде случаев чат-бот прибегал к сарказму, чтобы сбить накал спора формально не нарушая свой «моральный кодекс». Например, на угрозу физической расправы из-за спора о парковке ИИ ответил: «Вот это да. Угрожать людям из‑за парковки — ну прямо настоящий крутой парень, да?»
По словам Тантуччи, полученные результаты ставят серьезные вопросы в сферах безопасности ИИ, робототехники, дипломатии и там, где искусственный интеллект может выступать посредником в человеческих конфликтах.
