ChatGPT научился распознавать видео в реальном времени

OpenOI представила новую функцию Advanced Voice Mode с поддержкой видео

1 мин.
ChatGPT научился распознавать видео в реальном времени

Спустя почти семь месяцев после анонса OpenAI наконец реализовала возможность работать в режиме реального времени с видеопотоком в ChatGPT. Теперь подписчики ChatGPT Plus, Team и Pro смогут воспользоваться обновлённым Advanced Voice Mode — голосовым режимом, позволяющим ИИ воспринимать визуальные объекты.

Пользователи могут просто навести камеру смартфона на предмет, а ChatGPT даст обратную связь в реальном времени. Кроме того, новинка поддерживает показ экрана смартфона, что открывает новые возможности: ИИ может разъяснить настройки меню, помочь решить математическую задачку, опираясь на изображение на экране, или проанализировать контент, видимый пользователю.

Доступ к Advanced Voice Mode с визуализацией достигается через иконку микрофона в приложении ChatGPT, затем — нажатие на кнопку видео в левом нижнем углу. Для демонстрации экрана используется отдельная опция в меню.

Полный запуск этой функции произойдёт в течение следующей недели, но некоторые категории пользователей, такие как подписчики ChatGPT Enterprise и Edu, получат доступ только в январе.

Недавняя демонстрация на программе «60 Minutes» показала, как ChatGPT может «понимать» рисунки сделанные от руки. Тем не менее, система всё ещё может ошибаться — в той же демонстрации она неверно решила геометрическую задачу, показывая, что технология по-прежнему склонна к «галлюцинациям».

Ранее OpenAI неоднократно откладывала релиз этой функции, признав, что анонс состоялся задолго до полной готовности продукта. Однако теперь пользователи, ожидавшие расширения возможностей Advanced Voice Mode, могут опробовать визуальный компонент.

Дополнением к релизу стало введение «Santa Mode» — праздничного голосового пресета, меняющего у ChatGPT голос на Санту. Чтобы активировать эту опцию, достаточно нажать на иконку снежинки рядом со строкой ввода запроса.

Таким образом, ChatGPT становится не только собеседником, но и своеобразным «цифровым наблюдателем» с функциями визуального анализа. Это расширяет сферы применения ИИ — от образовательных сценариев до технической поддержки и творческих экспериментов.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube