Многие исследователи искусственного интеллекта и главы компаний — тот же Сундар Пичаи из Google — постоянно упоминают о том, что крупные языковые модели вроде GPT-4 могут внезапно проявить какой-нибудь навык, который программисты в них не вкладывали. Например, ИИ Bard якобы сам научился переводить с бенгальского. И что такое поведение указывает на проблески универсального ИИ. Однако специалисты из Стэнфорда утверждают, что все это иллюзия, основанная на выборе неверного инструмента оценки, пишет Хайтек.
В статье, выложенной на стайте научных публикаций arXiv, авторы пишут, что «при анализе фиксированного итога работы модели, в случае определенной задачи и семейства моделей, исследователь может выбрать одну метрику, которая подталкивает к выводу о появлении неожиданной способности, или другую, которая этого не делает». Другими словами, появление «неожиданных способностей» ИИ есть результат подтасовки результатов, осознанной или нет.
Проанализировав предыдущие статьи, посвященные возможностям моделей из семейства GPT компании OpenAI, исследователи обнаружили, что возможности ИИ возникают внезапно только тогда, когда для измерения их работоспособности применяются определенные метрики, пишет Vice. Выбор «нелинейного» или «дискретного» метода измерений может привести к появлению внезапных и непредсказуемых изменений, которые затем ошибочно маркируются как новые способности, тогда как на самом деле кривая производительности поднимается вверх гладко. Это делают разработчики и маленьких моделей, и больших.
При этом если выбрать другую, линейную метрику, картина меняется, и модель перестает демонстрировать необычные способности, а ее прогресс выглядит предсказуемым и ровным.
Авторы статьи советуют разработчикам внимательно изучать задачи и метрики, учитывать влияние метрики на частоту появления ошибок и перестать завидовать возможностям крупных языковых моделей.
«Мы подчеркиваем, что исследователям нужно представлять последствия выбора метрики и не быть захваченными врасплох, когда этот выбор приводит к предсказуемым результатам, — говорится в статье. — В качестве примера представьте себе оценку способностей бейсболистов на основе их способности отбить мяч на определенное расстояние. Если мы применяем метрику вроде „средней дистанции“ для каждого игрока, распределение показателей игроков будет гладким и непрерывным. Однако если мы выбрали дискретную метрику, к примеру, „превосходит ли среднее расстояние удара 325 футов“, то многое игроки получат 0, и только лучшие — 1. Обе метрики правомерны, но важно не удивляться, когда последняя демонстрирует дискретный результат. Это понимание может привести к более информированному выбору метрик для оценки неожиданных способностей».
Джеффри Хинтон, пионер в области искусственного интеллекта и давний руководитель исследовательского подразделения Google по искусственному интеллекту, подал в отставку, сославшись на растущую озабоченность по поводу этических последствий технологии, которую он помог создать. Он считает, что в долгосрочной перспективе ИИ устранит не только всю рутинную работу, но и, возможно, само человечество.