DeepSeek V4 уступила лидерам ИИ по результатам тестов

Китайская компания DeepSeek выпустила флагманскую модель V4 Pro, однако она не смогла обойти конкурентов как на внутреннем, так и на американском рынке. По данным аналитической фирмы Artificial Analysis, система заняла второе место среди мировых открытых моделей, пропустив вперёд разработку Kimi K2.6 от пекинской Moonshot AI.

В рейтинге Artificial Analysis Intelligence Index V4 Pro получила 52 балла. Для сравнения: Kimi K2.6 набрала 54 балла. Закрытые модели из США показали более высокие результаты: OpenAI GPT-5.5 — 60 баллов, Anthropic Claude Opus и Google Gemini 3.1 Pro — по 57 баллов.

При этом V4 Pro стала заметным улучшением по сравнению с предшественницей V3.2.

Согласно новому анализу, долгожданная флагманская модель V4 от DeepSeek не дотянула до своих конкурентов на внутреннем и американском рынках, поскольку китайская компания, занимающаяся разработкой искусственного интеллекта, изо всех сил пытается повторить рыночный успех своей предыдущей модели R1.

Согласно отчету компании Artificial Analysis, опубликованному в пятницу, самая передовая система компании, V4 Pro, заняла второе место среди ведущих мировых моделей с открытым исходным кодом, уступив только Kimi K2.6 от пекинской компании Moonshot AI.

Хотя версия V4 Pro представляла собой явное улучшение по сравнению со своей предшественницей, версией V3.2, она все еще отставала от ведущих конкурентов.

V4 Pro набрал 52 балла по индексу искусственного интеллекта, в то время как Kimi K2.6, выпущенный ранее на этой неделе , получил 54 балла . Для сравнения, ведущие модели с закрытым исходным кодом из США – GPT-5.5 от OpenAI, Claude Opus от Anthropic и Gemini 3.1 Pro от Google – набрали 60, 57 и 57 баллов соответственно.
Результаты подчеркивают проблемы, с которыми сталкивается DeepSeek, поскольку Китай стремится сократить отставание от США в области искусственного интеллекта на фоне усиливающейся конкуренции внутри страны и за рубежом, а также сохраняющихся ограничений вычислительной мощности.

Тем не менее, аналитики отметили, что версия V4 продемонстрировала значительный технический прогресс.

По словам Кайла Чана, научного сотрудника Института Брукингса, в пятничном сообщении на X, DeepSeek V4 показал «впечатляющие» результаты, приблизившись к самым современным показателям производительности, благодаря эффективному контекстному окну в миллион токенов и возможности работы на чипах искусственного интеллекта Ascend 950PR от Huawei Technologies.

Контекстное окно — это объем информации, который модель ИИ может обработать за один проход. Предыдущая флагманская модель DeepSeek имела контекстное окно в 128 000 токенов.

В опубликованном в субботу отчете исследовательской компании SemiAnalysis говорится, что 90-процентное сокращение объема кэша ключ-значение (KV) в DeepSeek в контексте с миллионом токенов «оказало гораздо большее влияние, чем исследование Google TurboQuant, опубликованное в прошлом месяце».

Эта модель также примечательна своей совместимостью с отечественным оборудованием. Вскоре после выпуска версии V4 в пятницу компания Huawei Technologies заявила, что ее линейка чипов Ascend и системы суперузлов обеспечат «полную поддержку» запуска модели в режиме инференции.

Однако остаются вопросы относительно того, как именно обучалась модель. Кайл Чан, научный сотрудник Института Брукингса, отметил, что «столь же примечательно», что DeepSeek не упомянула об использовании китайских чипов во время обучения, даже несмотря на то, что модель продолжала отставать от американских пограничных систем.

Эту точку зрения поддержал старший научный сотрудник Совета по международным отношениям Крис Макгуайр, который заявил, что публикация мало что изменила в общей картине лидерства США в области ИИ. Он оценил, что США по-прежнему опережают США примерно на семь месяцев, добавив, что отсутствие подробной информации о стоимости обучения или оборудовании предполагает, что V4, возможно, использовала ограниченные возможности чипов Nvidia Blackwell.

Компания DeepSeek не сразу ответила на запрос о комментарии.

Реакция рынка также была более сдержанной, чем во время дебюта предыдущей модели логического мышления R1. Хотя акции китайских производителей чипов выросли в пятницу после новостей о V4 и ее интеграции с оборудованием Huawei, релиз не вызвал того глобального шока, который наблюдался в прошлом году.
После запуска R1 американские фондовые рынки потеряли сотни миллиардов долларов, а акции Nvidia упали на 17 процентов за один день. Однако в пятницу акции Nvidia выросли на 4,32 процента.

Искусственный анализ также выявил потенциальные недостатки новой модели. Несмотря на улучшение показателей в тестах на знание, V4 Pro и его более легкий вариант V4 Flash показали уровень галлюцинаций в 94% и 96% соответственно.

Компания также отметила, что V4 Pro теперь дороже, чем конкурирующие модели с открытым исходным кодом, включая Kimi K2.6 и GLM-5.1 от Zhipu AI, а также собственную модель DeepSeek V3.2. Тем не менее, по данным компании, занимающейся бенчмаркингом, она по-прежнему значительно дешевле ведущих систем с закрытым исходным кодом.

Издание SemiAnalysis назвало DeepSeek V4 «исключительным инженерным релизом», который «немного отстает» от передовых разработок. Хотя его возможности не находятся на самом высоком уровне, по мнению издания, эта модель может служить недорогой альтернативой американским системам с закрытым исходным кодом.

Поделитесь новостью