Новые модели искусственного интеллекта и без того вызывают много споров, а добавление к ним предельно реалистичного голоса даёт ещё один повод для обсуждений. В последние годы появлялись впечатляющие примеры озвучки от таких компаний, как Google (Duplex) и OpenAI (Omni), однако о них редко слышно, пока не появляется нечто ещё более выдающееся. Теперь к ним присоединилась команда Sesame AI, совладельцем которой является бывший генеральный директор и сооснователь Oculus Брендан Айриб.
Miles и Maya
Разработчики из Sesame AI представили новую речевую модель (CSM), способную генерировать голосовые ответы, максимально приближённые к человеческим. На демонстрации заметны две AИИ-озвучки: Miles (мужской голос) и Maya (женский). По словам тестировавших, реалистичность голосов очень сильно впечатляет.
Видео в Telegram: https://t.me/applespbevent_video/71Разработчики утверждают, что система использует мультимодальный подход — обрабатывает одновременно текст и звук в рамках одного механизма, позволяя создавать более «естественный» синтез речи. По принципам работы это похоже на то, что предлагали в OpenAI с их голосовыми моделями. При всём этом, как отмечает Sesame AI, система всё ещё испытывает трудности с непрерывным диалогом, правильным ритмом речи и контекстной логикой. Сами авторы называют эту стадию «пребыванием в лощине» («firmly in the valley»), но надеются в перспективе приблизиться к полноценному преодолению «эффекта зловещей долины».
Реакция сообщества: от любопытства до дискомфорта
Несмотря на действительно впечатляющую технику, у многих возникли вопросы об этических и социальных последствиях её применения. В сети мнения колеблются от «потрясающе» до «смущающе». Технология CSM создаёт реалистичные живые диалоги, включая такие элементы, как вздохи, смех или небольшие паузы, — всё для того, чтобы звучать «по-человечески».
Некоторым пользователям, напротив, система показалась слишком натуральной. Так, обозреватель PCWorld Марк Хахман отметил, что женская версия голосовой модели (Maya) напомнила ему бывшую подругу:
«Я не ожидал, что ИИ начнёт задавать такие вопросы, будто пытается наладить близкий контакт. Это меня жутко смутило. У неё были схожие манеры речи — небольшие паузы, тихие интонации, когда "она" что-то доверительно сообщала. Это было не совсем точное совпадение с [моей бывшей], но достаточно близкое. Я так перепугался, что пришлось завершить тесты».
Куда ведёт развитие ИИ-голосов
Сооснователь Sesame AI, Брендан Айриб, утверждает, что, несмотря на все недостатки, технология движется к тому, чтобы в дальнейшем дополнять и обогащать человеческое общение, а не заменять его. В то же время сам он признаёт, что пока реалистичность голосов сильно опережает «понимание» контекста, поэтому часто возникает ощущение странной или «сбивчивой» беседы.
Некоторые видят в подобных разработках будущее озвучки в сфере игр, виртуальных помощников или онлайн-обучения. Другие опасаются возможных злоупотреблений: от появления реалистичных фейковых звонков до манипуляций во время телефонных переговоров. Но один факт остаётся неизменным: по мере совершенствования ИИ-систем грань между реальной и компьютерной речью будет всё более размываться, и наше общество придётся учиться жить в мире, где голос необязательно принадлежит человеку.
Ещё по теме:
- В сети появились результаты бенчмарков нового iPad Air от Apple с чипом M3
- Слух: iPhone 17 Air будет оснащён аккумулятором «высокой плотности»
- Google запускает тестирование ИИ-поиска: подробные ответы на сложные запросы