Почему китайская ИИ-модель от DeepSeek — это начало новой «гонки вооружений»

Автор -

Внезапный выпуск ИИ-модели от китайского стартапа DeepSeek обвалил американский рынок. Лидерами падения стали компании, выпускающие графические процессоры для обучения ИИ: Nvidia, Broadcom, AMD и Intel. Также значительное снижение показала Alphabet, материнская компания Google. Эксперт в области нейросетей для гражданского применения и гендиректор Университета «Зерокодер» Кирилл Пшинник разбирается в том, что вызвало столь резкую реакцию западных инвесторов, и действительно ли новая нейросеть способна революционизировать индустрию ИИ

Из-за чего переполох

Китайская компания DeepSeek-AI (深度求索), которая специализируется на разработке ИИ и является прямым конкурентом продуктам OpenAI, 20 января 2025 года представила свою языковую модель DeepSeek-R1. Уникальность этой модели заключается в том, что она обучена с использованием менее продвинутых и более дешевых чипов по сравнению с решениями от лидеров отрасли — таких, как OpenAI и Anthropic. Это ставит под сомнение необходимость применения дорогостоящих высокотехнологичных чипов для обучения ИИ.

Еще одной особенностью стало предоставление модели в формате открытого кода (open source) и с открытыми весами (в машинном обучении веса — это числовые параметры модели, которые определяют силу влияния входных данных на результат), что дает любой компании возможность использовать DeepSeek-R1 на своих собственных мощностях.

Западные инвесторы обеспокоены, что успех DeepSeek может не только подорвать доминирование США в сфере искусственного интеллекта, но и снизить спрос на продукцию американских производителей чипов. Более того, использование менее дорогих ресурсов для обучения ИИ снижает барьеры для входа на рынок, что неизбежно усилит конкуренцию в отрасли. Пока что капитализация всего IT-сектора просела на $1 трлн, но особенно пострадала Nvidia, которая потеряла $590 млрд рыночной стоимости: это рекордный убыток за один день в истории.

После официальной презентации нейросетью заинтересовались энтузиасты и исследователи по всему миру. Взрывной рост популярности нейросети пришелся на выходные 25-26 января, когда про нее начали писать западные СМИ. В то же время мобильное приложение DeepSeek обогнало по популярности и скачиваниям ChatGPT от OpenAI. Главное преимущество по сравнению с конкурентами — нейросеть абсолютно бесплатна. 27 января рынки отреагировали на тренд.

Дешевый ИИ — это хорошо или плохо?

Фундаментальные модели — такие, как разработки OpenAI и Anthropic, — столкнулись с мощным конкурентом и в ближайшем будущем рискуют утратить статус самых передовых нейросетей. Тем не менее ряд аналитиков считают, что появление таких моделей, как DeepSeek-R1, может стимулировать дальнейшие инновации, ускорить развитие и повсеместное внедрение ИИ, что в конечном итоге принесет пользу всей отрасли. Долгосрочные последствия появления новых, более доступных моделей могут быть сбалансированными, усилив конкуренцию и создав стимул для улучшения технологий.

Несмотря на падение акций производителей чипов, компании, использующие нейросети в своей деятельности, выигрывают от появления новой модели. Так, Николай Давыдов, сооснователь венчурного фонда Davidovs VC, инвестировавшего в стартап Perplexity, написал в Instagram (принадлежит Meta, признанной экстремистской и запрещенной в России): «Это очень хорошо для стартапов, которые создают application layers — агентов, использующих API-запросы к фундаментальным моделям. Для компаний вроде Perplexity это просто находка: расходы снижаются, а качество растет».

В свою очередь, знаменитый венчурный капиталист из Кремниевой долины Марк Андриссен назвал DeepSeek-R1 в соцсети X (ранее Twitter) «спутником-моментом» в области ИИ. Он провел аналогию с запуском первого спутника СССР, который стал катализатором космической гонки между двумя сверхдержавами.

Для российских пользователей преимущества китайской нейросети очевидны. Теперь нет необходимости искать посредников для оплаты услуг ИИ, использовать сторонние приложения для обхода блокировок или проходить сложные процедуры регистрации. Для доступа достаточно аккаунта Gmail, при этом подтверждение по телефону не требуется. Стоимость API-запросов в шесть раз ниже, чем у OpenAI, а использование нейросети возможно прямо с территории России.

Кроме того, открытый код DeepSeek-R1 и возможность дообучения делают ее превосходным выбором для интеграции внутри корпоративного периметра безопасности крупных компаний. Для российского бизнеса это реальная возможность внедрить современные технологии ИИ без значительных затрат и правовых сложностей.

Технические детали: что такое reasoning

В течение 2023 и начала 2024 года ходили слухи о том, что OpenAI разрабатывает новую архитектуру, приближающую нас к созданию общего искусственного интеллекта (AGI), способного конкурировать или превосходить человека в решении широкого спектра задач. Эти ожидания подтвердились в конце 2024 года, когда компания представила модели o1 и позднее o3, которые продемонстрировали выдающиеся результаты в решении математических задач на уровне лучших 500 олимпиадников и в проведении рассуждений, сравнимых с докторскими исследованиями. Такие модели получили название reasoning models (модели с рассуждением).

Однако основная проблема reasoning-моделей — высокая стоимость их эксплуатации. Например, использование модели o1 обходится в 10 раз дороже, чем базовой GPT-4o. OpenAI предложила новый тариф стоимостью $200 в месяц для пользователей, желающих активно работать с o1, но такие затраты отпугнули массовую аудиторию, которая предпочла оставаться на доступных решениях, таких как GPT-4o.

В то же время китайская модель DeepSeek-R1 предложила уникальную альтернативу: это открытая reasoning-модель, предоставляемая в формате open source. После ее презентации эксперты сначала отнеслись к проекту скептически, считая невозможным создание аналога o1, но тестирование доказало, что китайская модель действительно соответствует заявленным характеристикам.

Личный опыт и независимые бенчмарки

Я лично протестировал DeepSeek-R1 на решении математических задач, написании кода, обработке текста на русском языке и поиске информации. По всем параметрам модель оказалась сопоставима с решениями OpenAI, а в некоторых случаях даже превзошла их. Например, в качестве проверки математических способностей я попросил нейросеть решить самую последнюю и сложную задачу из второй части демоверсии профильного варианта ЕГЭ по математике за 2024 год. И DeepSeek, и OpenAI o1 справились с задачей верно, однако китайская нейросеть потратила на решение две минуты, а американская — более восьми минут.

Исследования компании DeepSeek подтвердили ее конкурентоспособность. На бенчмарках AIME 2024 и MATH-500, связанных с математикой, результаты китайской нейросети впечатляют:

  • AIME 2024: DeepSeek-R1 — 79,8%, OpenAI o1 — 79,2%.
  • MATH-500: DeepSeek-R1 — 97,3%, OpenAI o1 — 96,4%

В тестах на программирование и понимание алгоритмов:

  • Codeforces: DeepSeek-R1 — 96,3%, OpenAI o1 — 96,6%
  • SWE-bench Verified: DeepSeek-R1 — 49,2%, OpenAI o1 — 48,9%

В бенчмарках на общие знания и языковые способности:

  • GPQA Diamond: DeepSeek-R1 — 71,5%, OpenAI o1 — 75,7%
  • MMLU: DeepSeek-R1 — 90,8%, OpenAI o1 — 91,8%

Эти результаты показывают, что DeepSeek-R1 практически не уступает решениям OpenAI, а по некоторым параметрам даже превосходит их.

Функционал новой нейросети

Интерфейс DeepSeek-R1 схож с интерфейсом ChatGPT, но предлагает несколько уникальных функций.

  1. Работа с текстом, файлами и изображениями. DeepSeek-R1 позволяет обрабатывать запросы пользователей, загружать документы (включая PDF) и изображения с текстом. На основе загруженных материалов нейросеть может генерировать ответы и давать рекомендации.
  2. Режим рассуждений (DeepThink R1). Этот режим является аналогом reasoning-модели o1 от OpenAI. Нейросеть сначала анализирует запрос, оценивает различные подходы к решению и лишь затем выдает ответ.
  3. Поиск информации (Search). DeepSeek-R1 может осуществлять поиск в интернете и использовать найденные данные для создания ответов. Тестирование показало, что качество работы этой функции соответствует решениям OpenAI.
  4. Комбинированные сценарии. Модель позволяет объединять функционал: например, загрузить документ, выполнить поиск дополнительных данных в интернете и затем использовать режим рассуждений для проработки ответа.

Пока я писал эту колонку, DeepSeek объявила о выпуске новой модели искусственного интеллекта Janus-Pro-7B, которая, по их утверждению, превосходит такие решения, как DALL-E 3 от OpenAI и Stable Diffusion от Stability AI в задачах генерации изображений по текстовым запросам. К сожалению, модель пока не доступна для тестирования, поэтому провести объективное сравнение нет возможности.

Что дальше

Утром 28 января компания DeepSeek сообщила о временном ограничении регистрации новых пользователей «в результате атак». Сбои в работе платформы наблюдаются уже второй день на фоне ажиотажа вокруг чат-бота компании, говорится в официальном сообщении на сайте DeepSeek.

События последних дней не только вызвали значительные колебания на мировых рынках, но и поставили под сомнение доминирование западных технологических гигантов в сфере искусственного интеллекта. Использование менее дорогих ресурсов для обучения моделей и предоставление открытого исходного кода делают такие решения крайне привлекательными для пользователей и компаний по всему миру, включая российский рынок, где доступ к продвинутым технологиям ИИ ранее был ограничен.

Несмотря на первоначальные опасения инвесторов, эксперты подчеркивают, что усиление конкуренции может стать катализатором для отрасли. Это приведет к ускорению инноваций и снижению стоимости разработки и внедрения ИИ, что, в свою очередь, открывает новые возможности для стартапов и компаний, активно использующих нейросети в своей деятельности.

Таким образом, DeepSeek не только бросает вызов традиционным лидерам индустрии, но и меняет правила игры, делая технологии ИИ доступными для более широкого круга пользователей. Вопрос лишь в том, готовы ли западные игроки адаптироваться к новой реальности или рынок ждет глобальный передел.

Поделитесь новостью