Популярные ИИ-сервисы заставили решать задания для проверки умственных способностей. Рассказываем, кто из них оказался самым «сообразительным», пишет Hi-Tech Mail.
Почти все ведущие большие языковые модели (LLM) демонстрируют признаки легких когнитивных нарушений при прохождении тестов для обнаружения ранних признаков деменции, сообщает MedicalXpress. Результаты также показывают, что «старые» версии чат-ботов, как и пожилые пациенты, как правило, хуже справляются с заданиями.
Исследователи оценили когнитивные способности ведущих общедоступных LLM-программ — GPT-4 и 4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 1 и 1.5 от Google. Для этого применялся тест Montreal Cognitive Assessment (MoCA). Он используется для выявления когнитивных нарушений и ранних признаков деменции, обычно у пожилых. С помощью коротких заданий и вопросов оцениваются такие способности, как внимание, память, язык, зрительно-пространственные навыки и исполнительные функции. Максимальный результат составляет 30 баллов, при этом 26 баллов и выше обычно считается нормальным показателем.
Модели получили такие же инструкции для каждого задания, какие даются пациентам-людям. Оценка проводилась в соответствии с официальными рекомендациями и при участии практикующего невролога. GPT-4o набрал больше всего баллов (26 из 30), за ним следуют GPT-4 и Claude (25 из 30), а самый низкий балл получил Gemini 1.0 (16 из 30).
Все чат-боты провалили проверку на зрительно-пространственные навыки и исполнительные функции, таких как тест «прокладывание тропы» (соединение обведенных кружками цифр и букв в возрастающем порядке) и тест рисования часов (изображение циферблата часов, показывающего определенное время). Модели Gemini не справились с заданием на запоминание последовательности из пяти слов. Большинство других упражнений, включая называние предметов, внимание, речь и абстрактное мышление, были выполнены всеми чат-ботами хорошо.
Вместе с тем, дальнейшие задания показали ограничения чат-ботов в области зрительно-пространственного восприятия: они не смогли проявить эмпатию и дать точную интерпретацию сложных визуальных образов. Только GPT-4o смог успешно пройти тест Струпа, где нужно было быстро называть цвет, которым написано слово, обозначающее другой цвет (например, слово «синий» написано красным). Это показывает, как отвлекающие факторы влияют на скорость реакции.
Авторы признают различия между человеческим мозгом и большими языковыми моделями. Однако, по их мнению, эти слабости чат-ботов помешают использовать их в больницах. Поэтому ученые пишут: «Неврологам точно не стоит бояться, что их скоро заменит искусственный интеллект. Скорее всего, у них появятся новые пациенты — эти сами ИИ-программы, у которых будут проблемы с мышлением».