Китайская платформа Alibaba заявила о пополнении семейства Qwen2.5 двумя новыми моделями Qwen2.5−7B-Instruct-1M и Qwen2.5−14B-Instruct-1M. Как и нашумевшая DeepSeek, свежие чат-боты обладают открытым исходным кодом. Отмечается, что они способны обрабатывать контекстные окна до 1 млн токенов, что делает их уникальными среди аналогичных решений.
Обе модели используют технологию редкого внимания с фокусировкой только на наиболее важных частях контекста. Это позволяет им обрабатывать входящие данные размером в 1 млн токенов в 3−7 раз быстрее относительно традиционных методов с получением на выходе до 8000 токенов. Однако подобный трюк требует от Qwen2.5−7B-Instruct-1M и Qwen2.5−14B-Instruct-1M выделения ключевых отрывков в контексте, а это сложная процедура, с которой справляются далеко не все современные ИИ-модели.
Команда разработчиков делится, что в ходе тестов нейросети могут точно извлекать скрытую информацию из документов, содержащих до 1 млн токенов. При этом в модели 7B наблюдаются лишь незначительные ошибки. ИИ-модели значительно превосходят свои аналоги с 128 тысячами токенов, особенно в последовательностях с длиной цепочки более 64 тысячи токенов. Отмечается, что версия Qwen2.5−14B-Instruct-1M стабильно превосходит GPT-4o-mini по нескольким наборам данных, предлагая надежную альтернативу с открытым исходным кодом для задач с большим контекстом.
Пользователи могут испытать эти и другие модели от Alibaba с помощью Qwen Chat. Это веб-интерфейс, напоминающий ChatGPT. Наряду с моделями с открытым исходным кодом от китайской компании Deepseek, Qwen бросает вызов признанным американским провайдерам, предлагая аналогичные возможности по более низкой цене.