Голосовой ассистент следующего поколения - OpenAI представила модель GPT-4o
OpenAI представила свою новую модель искусственного интеллекта GPT-4o, которая значительно расширяет возможности обработки речи по сравнению с GPT-4. Развертывание GPT-4o будет постепенным - модель будет добавлена во все продукты компании для разработчиков и потребителей в течение ближайших недель, и уже сейчас доступна в виде API.
В ходе анонса технический директор OpenAI Мури Мурати подчеркнула, что GPT-4o расширяет возможности предыдущей модели GPT-4 благодаря мультимодальности, то есть использованию не только текстовых данных для обучения, но и видео, аудио, изображений и другой визуальной информации. Это значительно улучшило возможности GPT-4o в обработке речи.
ChatGPT ранее уже имел голосовой режим, который переводил текстовые ответы чат-бота в речь, используя специализированную модель преобразования. С GPT-4o эта функция значительно улучшилась, превратив ChatGPT в более динамичный инструмент, подобный виртуальному ассистенту.
Теперь пользователи могут общаться с ChatGPT в разговорной манере, даже прерывая его ответы - в этом случае модель демонстрирует отличную адаптивность в реальном времени. Кроме того, GPT-4o способен распознавать эмоциональные нюансы в пользовательском голосе и может отвечать в различных эмоциональных стилях, добавляя уровень персонализации взаимодействия.
Мурати также объявила, что OpenAI выпустит десктопную версию ChatGPT вместе с обновленным пользовательским интерфейсом. В компании считают, что таким образом можно будет значительно упростить взаимодействие пользователей с более сложными моделями искусственного интеллекта.