Voice Engine от OpenAI может клонировать голос, используя всего 15 секунд аудиозаписи

Магазин: пополнить Apple ID, купить Premium-подписки и ключи.

«Это мой голос. Или, по крайней мере, был им. Теперь он также принадлежит алгоритму, который может заставить меня говорить то, что я никогда не говорил».

Начало научно-фантастического романа? Нет. Это сценарий, который вырисовывается с распространением синтетических голосов. Технологии, способные клонировать наши голоса на основе нескольких аудиообразцов, такие, как Voice Engine от OpenAI.

Амбициозный проект обещает произвести революцию в таких областях, как развлечения, образование и здравоохранение. Но он также поднимает вопросы о контроле над личностью в эпоху искусственного интеллекта.

Украденные голоса

В будущем ваш голос больше не будет принадлежать вам. Это будет мир, где любой человек несколькими кликами может заставить сказать что угодно. Приговоры не будут высказаны, мнения не будут выражены, секреты не будут раскрыты. С появлением синтетических голосов на горизонте замаячит антиутопический пейзаж.

Разумеется, возможность генерировать искусственные голоса не является чем-то новым. На протяжении десятилетий существовало программное обеспечение, способное преобразовывать текст в речь, с более или менее механическими и непривлекательными результатами.

Но новые рубежи ИИ обещают изменить правила игры. Всё более сложные алгоритмы, питаемые огромными массивами данных и нейронными сетями, учатся имитировать тончайшие нюансы человеческой речи, приближаясь к совершенству. Тембр, интонация, ритм, паузы: все элементы, которые делают голос уникальным и узнаваемым, теперь подвластны машинам.

Голосовой движок OpenAI - последнее воплощение этой тенденции. Модель, способная генерировать реалистичные и естественные голоса на основе очень короткого аудиообразца длительностью всего 15 секунд. Маленькое чудо (или маленький ужас, в зависимости от точки зрения), открывающее сценарии, которые раньше были научной фантастикой.

Voice Engine: вокальные симфонии или искусственные какофонии?

Потенциальные области применения многообразны и интересны. Подумайте об индустрии развлечений: с синтетическими голосами актёры смогут озвучивать персонажей анимационных фильмов или видеоигр, не проводя часы в студии звукозаписи. Актёры озвучивания могут работать на незнакомых им языках, полагаясь на машинный перевод. Аудиокниги можно будет пересказывать выразительными и интересными голосами, представляя различные акценты и стили.

0:00

/0:23

А как насчёт здравоохранения? Благодаря таким инструментам, как Voice Engine, пациенты, страдающие от проблем с речью или фонацией, смогут обрести естественный, индивидуальный голос.

Слепые или те, кто испытывает трудности с чтением, смогут легче получить доступ к текстовому контенту, преобразованному в аудио. Языковые барьеры могут быть преодолены: голосовые помощники смогут свободно изъясняться на любом идиоматическом языке.

Не говоря уже об образовательном потенциале: изучение иностранного языка путём диалога с синтетическим, но реалистичным голосом, получение корректирующей обратной связи от виртуального преподавателя собственным голосом, создание настраиваемого многоязычного образовательного контента. Возможности здесь безграничны и привлекательны.

Но у каждой монеты есть обратная сторона.

Голосовые идентификаторы в эпоху дипфейков

Первый и самый очевидный риск – это дезинформация и манипуляции. С помощью таких инструментов, как Voice Engine для работы с аудио и Sora для работы с видео, любой человек может создавать фейковые, но правдоподобные ролики о государственных деятелях или частных лицах. Фальсифицированные политические речи, сфабрикованные заявления, вынужденные признания: фальшивые новости найдут в синтетических голосах даже союзника. В эпоху, уже отмеченную недоверием к средствам массовой информации и институтам, перспектива того, что мы больше не сможем доверять даже тому, что слышим собственными ушами, не может не настораживать.

Кроме того, возникает вопрос конфиденциальности и контроля над своими биометрическими данными. Наш голос – это отличительная черта личности, наравне с отпечатками пальцев или сетчаткой глаза.

Но, в отличие от других биометрических данных, его относительно легко перехватить и воспроизвести без нашего ведома. Достаточно нескольких секунд украденной записи, возможно, телефонного разговора или публичного видео, чтобы скормить её алгоритму вроде Voice Engine. И вуаля, наш голос больше не принадлежит нам. Его можно использовать, злоупотреблять, деконтекстуализировать.

Разумеется, OpenAI осознает эти риски и старается ответственно подходить к их устранению. Партнёры, тестирующие Voice Engine, должны придерживаться строгих этических принципов: никакой имитации реальных людей без согласия, да – явная авторизация голосовых доноров, максимальная прозрачность в отношении искусственной природы синтетических голосов. Это шаги в правильном направлении, но они не решают корень проблемы.

Ведь проблема, в конце концов, скорее философская, чем технологическая. Она касается нашего отношения к голосу как к выражению собственного «я», как к признаку подлинности во всё более опосредованном и искусственном мире.

Будущее синтезированного голоса

Столкнувшись с этими вопросами, можно поддаться искушению луддитского неприятия: заставить синтетические голоса замолчать, считать их «извращённой» технологией, укрыться в предполагаемой чистоте «естественных» голосов. Но это была бы недальновидная и контрпродуктивная реакция. Синтетические голоса, как и любая другая технология, сами по себе не хороши и не плохи: всё зависит от того, как их использовать.

Задача состоит в том, чтобы создать этическую и нормативную базу, которая направит их развитие на общее благо. Определить единые стандарты и протоколы для получения и использования голосовых данных. Повысить осведомлённость граждан о рисках и возможностях синтетических голосов, предоставив им инструменты для ориентирования. Инвестировать в исследования надёжных методов проверки подлинности и отслеживания происхождения аудиоконтента. Поощрять открытые и информированные общественные дебаты по этим вопросам с участием всех заинтересованных сторон.

И этот путь не будет простым или коротким. Он потребует дальновидности и сотрудничества. Но это необходимый путь, потому что на кону не только технологии. Это экзистенциальный вопрос. Речь идёт о самом смысле индивидуальности в мире, где границы между реальным и виртуальным, между подлинным и искусственным становятся всё более размытыми.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Voice Engine от OpenAI может клонировать голос, используя всего 15 секунд аудиозаписи

Украденные голоса

Voice Engine: вокальные симфонии или искусственные какофонии?

Голосовые идентификаторы в эпоху дипфейков

Будущее синтезированного голоса

Дима Кутузов

Этот день в истории Apple: новый этап противостояния между Apple и The Beatles

Полиция Нью-Йорка начала стрелять GPS-дротиками по машинам, чтобы остановить автоугонщиков