Новый сверхреалистичный ИИ-голос шокировал и восхитил интернет-сообщество

Новые модели искусственного интеллекта и без того вызывают много споров, а добавление к ним предельно реалистичного голоса даёт ещё один повод для обсуждений. В последние годы появлялись впечатляющие примеры озвучки от таких компаний, как Google (Duplex) и OpenAI (Omni), однако о них редко слышно, пока не появляется нечто ещё более выдающееся. Теперь к ним присоединилась команда Sesame AI, совладельцем которой является бывший генеральный директор и сооснователь Oculus Брендан Айриб.

Miles и Maya

Разработчики из Sesame AI представили новую речевую модель (CSM), способную генерировать голосовые ответы, максимально приближённые к человеческим. На демонстрации заметны две AИИ-озвучки: Miles (мужской голос) и Maya (женский). По словам тестировавших, реалистичность голосов очень сильно впечатляет.

Видео в Telegram: https://t.me/applespbevent_video/71

Разработчики утверждают, что система использует мультимодальный подход — обрабатывает одновременно текст и звук в рамках одного механизма, позволяя создавать более «естественный» синтез речи. По принципам работы это похоже на то, что предлагали в OpenAI с их голосовыми моделями. При всём этом, как отмечает Sesame AI, система всё ещё испытывает трудности с непрерывным диалогом, правильным ритмом речи и контекстной логикой. Сами авторы называют эту стадию «пребыванием в лощине» («firmly in the valley»), но надеются в перспективе приблизиться к полноценному преодолению «эффекта зловещей долины».

Реакция сообщества: от любопытства до дискомфорта

Несмотря на действительно впечатляющую технику, у многих возникли вопросы об этических и социальных последствиях её применения. В сети мнения колеблются от «потрясающе» до «смущающе». Технология CSM создаёт реалистичные живые диалоги, включая такие элементы, как вздохи, смех или небольшие паузы, — всё для того, чтобы звучать «по-человечески».

Некоторым пользователям, напротив, система показалась слишком натуральной. Так, обозреватель PCWorld Марк Хахман отметил, что женская версия голосовой модели (Maya) напомнила ему бывшую подругу:

«Я не ожидал, что ИИ начнёт задавать такие вопросы, будто пытается наладить близкий контакт. Это меня жутко смутило. У неё были схожие манеры речи — небольшие паузы, тихие интонации, когда "она" что-то доверительно сообщала. Это было не совсем точное совпадение с [моей бывшей], но достаточно близкое. Я так перепугался, что пришлось завершить тесты».

Куда ведёт развитие ИИ-голосов

Сооснователь Sesame AI, Брендан Айриб, утверждает, что, несмотря на все недостатки, технология движется к тому, чтобы в дальнейшем дополнять и обогащать человеческое общение, а не заменять его. В то же время сам он признаёт, что пока реалистичность голосов сильно опережает «понимание» контекста, поэтому часто возникает ощущение странной или «сбивчивой» беседы.

Некоторые видят в подобных разработках будущее озвучки в сфере игр, виртуальных помощников или онлайн-обучения. Другие опасаются возможных злоупотреблений: от появления реалистичных фейковых звонков до манипуляций во время телефонных переговоров. Но один факт остаётся неизменным: по мере совершенствования ИИ-систем грань между реальной и компьютерной речью будет всё более размываться, и наше общество придётся учиться жить в мире, где голос необязательно принадлежит человеку.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Искусственный интеллект Разное

Новый сверхреалистичный ИИ-голос шокировал и восхитил интернет-сообщество

Miles и Maya

Реакция сообщества: от любопытства до дискомфорта

Куда ведёт развитие ИИ-голосов

Дима Кутузов

В сети появились результаты бенчмарков нового iPad Air от Apple с чипом M3

Этот день в истории Apple: SDK для iPhone открывает новые возможности для создания приложений