ИИ Google теперь может сам ходить по сайтам, нажимать кнопки и заполнять формы

Google представила новую версию своего искусственного интеллекта Gemini 2.5 Pro с функцией Computer Use, позволяющую системе самостоятельно просматривать сайты, нажимать кнопки, прокручивать страницы и заполнять формы. Разработанная подразделением DeepMind, эта функция превращает ИИ-модель в универсального цифрового агента, способного выполнять действия в браузере практически так же, как человек, пишут СМИ.

По сути, Gemini 2.5 Computer Use — это шаг от чат-бота к «исполнителю». Если ранние версии ИИ могли только отвечать на вопросы или генерировать тексты, то теперь он может действовать в реальном интерфейсе: искать билеты, авторизовываться на сайтах, оформлять покупки или тестировать пользовательские формы. «Это только начало, но способность модели взаимодействовать с вебом — например, прокручивать, заполнять формы и перемещаться по меню, — станет важным шагом в создании универсальных ИИ-агентов», — заявил глава Google Сундар Пичаи.

Для реализации этой функции Google сотрудничает со стартапом Browserbase, созданным бывшим инженером Twilio Полом Кляйном. Browserbase предлагает браузер как виртуальную среду без графического интерфейса, в которой ИИ может работать с веб-страницами напрямую через API. Такой подход делает возможным обучение и тестирование моделей в контролируемых условиях, без реального вмешательства пользователя.

Пользователи могут попробовать Gemini 2.5 Computer Use прямо на Browserbase, где создана «Browser Arena» — площадка для сравнения моделей Google, OpenAI и Anthropic.

Меры безопасности

Так как модель имеет прямой доступ к веб-интерфейсам, Google ввела многоуровневую систему контроля. Каждый шаг агента проверяется службой безопасности, а разработчики могут задавать собственные правила — например, блокировать покупки или требовать ручного подтверждения при работе с личными данными.

Gemini не может выполнять действия, нарушающие политику Google, а при обнаружении CAPTCHA требует подтверждения пользователя, предотвращая полностью автономное поведение без контроля человека.

Для сложных операций, вроде оплаты или ввода персональных данных, система может запросить подтверждение пользователя, чтобы избежать ошибок или нарушений политики безопасности.

Модель принимает изображения и текст, возвращая либо текстовый ответ, либо вызов функции — фактически, готовый «код действия» для браузера.

Цена и лицензирование

Стоимость использования почти идентична базовой модели Gemini 2.5 Pro:

  • Входные токены — от $1,25 за миллион (до 200 000 токенов),
  • Выходные — от $10 за миллион.

Однако ключевое отличие — отсутствие бесплатного уровня. В то время как Gemini 2.5 Pro можно тестировать бесплатно в Google AI Studio, версия Computer Use с самого начала тарифицируется. При этом, как уточняет компания, данные платных пользователей не используются для дообучения моделей — это может стать важным аргументом для корпоративных клиентов.

От чат-ботов к цифровым агентам

С появлением Computer Use Google вступила в новую фазу конкуренции с OpenAI и Anthropic. Если ChatGPT Agent и Claude Sonnet уже умеют создавать файлы и работать с локальными данными, то Gemini делает ставку на визуальное взаимодействие с реальными интерфейсами — от браузеров до мобильных приложений.

Фактически речь идёт о начале эры ИИ-исполнителей — автономных систем, которые смогут не только анализировать запросы, но и реализовывать их действиями в цифровой среде. «Мы движемся к тому, чтобы компьютеры не просто отвечали на вопросы, а делали работу», — говорит один из инженеров DeepMind, участвовавший в тестировании модели.

Эксперты отмечают, что такие агенты станут ключевыми инструментами будущей офисной и потребительской автоматизации. Они смогут самостоятельно бронировать билеты, подавать заявки, проходить регистрации на сайтах, управлять аккаунтами и даже вести переговоры в онлайне в рамках поставленных целей и заданных полномочий.

Поделитесь новостью