Open AI представила улучшенную и бесплатную модель GPT-4o с пониманием голоса

В понедельник OpenAI анонсировала новую флагманскую модель генеративного искусственного интеллекта, которую они назвали GPT-4o — буква «o» означает «omni», что указывает на способность модели обрабатывать текст, речь и видео. GPT-4o планируется «итеративно» внедрять в продуктах компании для разработчиков и потребителей в течение следующих нескольких недель.

Технический директор OpenAI Мира Мурати заявила, что GPT-4o обеспечивает интеллект «уровня GPT-4», но улучшает возможности GPT-4 в различных модальностях и средах.

«GPT-4o влияет на голос, текст и зрение», — сказал Мурати во время потоковой презентации в офисе OpenAI в Сан-Франциско в понедельник. «И это невероятно важно, потому что мы смотрим в будущее взаимодействия между нами и машинами».

GPT-4o значительно улучшает работу чат-бота OpenAI с искусственным интеллектом ChatGPT . Платформа уже давно предлагает голосовой режим , который расшифровывает ответы чат-бота с использованием модели преобразования текста в речь, но GPT-4o расширяет возможности этого, позволяя пользователям взаимодействовать с ChatGPT больше как с помощником. 

GPT-4o также расширяет возможности видения ChatGPT. Имея фотографию или экран рабочего стола, ChatGPT теперь может быстро отвечать на связанные вопросы, начиная от «Что происходит в этом программном коде?» на «Какую марку рубашки носит этот человек?»

По словам Мурати, в будущем эти функции будут развиваться дальше. Хотя сегодня GPT-4o может просматривать изображение меню на другом языке и переводить его, в будущем модель может позволить ChatGPT, например, «смотреть» спортивную игру в прямом эфире и объяснять вам правила.

«Мы знаем, что эти модели становятся все более и более сложными, но мы хотим, чтобы опыт взаимодействия на самом деле стал более естественным, легким, и чтобы вы вообще не сосредотачивались на пользовательском интерфейсе, а просто сосредоточились на сотрудничестве с ChatGPT», — сказал Мурати. «Последние пару лет мы были сосредоточены на повышении интеллекта этих моделей… Но впервые мы действительно делаем огромный шаг вперед, когда дело касается простоты использования».

OpenAI утверждает, что GPT-4o также более многоязычен и обладает улучшенной производительностью примерно на 50 языках. По словам компании , в API OpenAI и службе OpenAI Microsoft Azure GPT-4o в два раза быстрее, вдвое дешевле и имеет более высокие ограничения по скорости, чем GPT-4 Turbo.

В настоящее время голосовая связь не является частью API GPT-4o для всех клиентов. OpenAI, ссылаясь на риск неправильного использования, заявляет, что планирует впервые запустить поддержку новых аудиовозможностей GPT-4o для «небольшой группы доверенных партнеров» в ближайшие недели.

В связанных новостях OpenAI объявила, что выпускает обновленный пользовательский интерфейс ChatGPT в Интернете с новым, «более диалоговым» главным экраном и макетом сообщений, а также настольную версию ChatGPT для macOS, которая позволяет пользователям задавать вопросы с помощью сочетания клавиш или отвечать на вопросы. обсудить скриншоты. Пользователи ChatGPT Plus сначала получат доступ к приложению, начиная с сегодняшнего дня, а версия для Windows появится позже в этом году.

В другом месте GPT Store , библиотека OpenAI и инструменты создания сторонних чат-ботов, построенных на ее моделях искусственного интеллекта, теперь доступны пользователям бесплатного уровня ChatGPT. А бесплатные пользователи могут воспользоваться преимуществами функций ChatGPT, которые раньше были платными, например, памятью , которая позволяет ChatGPT «запоминать» предпочтения для будущих взаимодействий, загружать файлы и фотографии, а также искать в Интернете ответы на актуальные вопросы.

Поделитесь новостью