Всего полгода назад мир узнал о ChatGPT, а сегодня многие ведущие компании мира либо уже начали использовать технологию генеративного ИИ в своей работе, либо разрабатывают продукты на ее основе. Однако прежде большие данные, которые скармливали таким моделям, как GPT, Stable Diffusion или Midjourney — книги, статьи, фотографии — были созданы человеком. С ростом числа ИИ появится все больше контента, сгенерированного машинами. Что произойдет, когда генеративные модели станут обучаться на материалах, созданных ИИ? Как оказалось, их неизбежно ждет вырождение, пишут СМИ.
Группа исследователей из Британии и Канады изучила эту проблему и опубликовала статью в журнале arXiv. Они пришли к выводу, что такая ситуация вызывает тревогу за технологию генеративного ИИ и его будущее: «Мы обнаружили, что использование сгенерированного моделями контента в обучении приведет к необратимым дефектам в будущем поколении моделей».
«Если ИИ — это мозг робота, то RPA — его руки». Что умеют программные роботы
Сосредоточившись на проблеме распределения вероятностей в генеративных моделях типа «текст в текст» и «изображение в изображение», авторы пришли к выводу, что «обучение на основе данных, созданных другими моделями, вызовет коллапс моделей — процесс вырождения, при котором со временем модели забудут настоящее распределение данных. (…) Этот процесс неизбежен даже в случаях с почти идеальными условиями для долгосрочного обучения».
Постепенно ошибки в моделях будут накапливаться, и они станут воспринимать реальность все менее адекватно. «Мы удивились, когда увидели, как быстро произошел коллапс моделей: модели могут быстро забыть большинство оригинальных данных, на которых они обучались в самом начале», — сказал Илья Шумайлов, один из авторов статьи, в беседе с Venture Beat.
Другими словами, когда учебная модель ИИ получает больше сгенерированных ИИ данных, она становится постепенно все менее эффективной, совершает больше ошибок в ответах и создаваемом контенте, ее реакции теряют вариативность.
Он проиллюстрировал проблему гипотетическим сценарием, в котором модель была обучена на наборе данных из 100 котов — десять из них были с голубой шерстью, 90 — с желтой. Модель понимает, что желтые коты встречаются чаще, но также представляет голубых котов более желтоватыми, выдавая иногда результаты с зелеными котами, когда ее просят создать новые данные. Со временем оригинальная черта — голубой мех — выветривается в повторяющихся циклах, от голубого к зеленому, от зеленого к желтому. Это постепенное растворение и потеря минорных характеристик и есть коллапс модели. Чтобы предотвратить его, важно удостовериться в правильном распределении минорных групп в наборах данных, которые изображали бы отличительные черты верно с точек зрения количества и точности. Трудная задача, поскольку моделям сложно учиться на редких событиях.
«Мы собираемся наполнить интернет чушью, — сказал другой автор, Росс Андерсон из Университета Кембриджа и Университета Эдинбурга. — Это затруднит обучение новых моделей путем прочесывания интернета. Фирмы, которые уже сделали это, или которые контролируют крупномасштабный доступ к пользовательским интерфейсам, будут иметь преимущество».
Авторы предлагают пару решений этой проблемы, которые, правда, потребуют механизма массовой маркировки и серьезных усилий со стороны производителей контента или ИИ-компаний по дифференциации материалов, созданных человеком и машиной. Сейчас так никто не делает.
В мае чат-бот OpenAI ChatGPT был запрещен в Италии из-за нарушения защиты данных, что спровоцировало расследования и в других странах ЕС. Регуляторов беспокоят отказ компании раскрывать механизм обучения ИИ, недостоверные ответы и отсутствие возрастных фильтров. OpenAI удалось договориться с итальянскими властями, но это может быть только начало. В 2024 году в ЕС должен вступить в силу закон об искусственном интеллекте, который потребует раскрытия наборов обучающих данных. В этой связи эксперты ожидают, что многие компании, создающие ИИ-модели, станут уязвимы для судебных исков.