Исследователи из Университета Вашингтона показали прототип ИИ-наушников, способных самостоятельно выделять голос собеседника на фоне общего шума. Новая система использует нейросетевые технологии и может пригодиться не только в шумных помещениях, но и людям с нарушениями слуха, для которых такие условия нередко становятся непреодолимыми.
Команда разработчиков сделала ставку на автоматическое распознавание участников беседы. Если раньше пользователю требовалось вручную выбирать нужный источник звука или смотреть на собеседника, чтобы техника сфокусировалась на его голосе, теперь эта функция полностью перешла на плечи алгоритма.
Прототип без вмешательства со стороны человека определяет, кто именно говорит, и отсекает лишние реплики, не вписывающиеся в структуру диалога.
Работа была представлена 7 ноября в китайском Сучжоу в рамках конференции EMNLP. Код проекта доступен для изучения, и исследователи уверены, что предложенные алгоритмы могут лечь в основу новых слуховых аппаратов, гарнитур и носимой электроники.
Старший автор исследования Шьям Голлакотта пояснил, что в некоторых ранних подходах к решению проблемы использовались методы имплантации электродов в мозг, чтобы отслеживать внимание человека. По его словам, такой путь чрезмерно инвазивен. Разработчики же решили использовать естественный ритм разговора, где смена реплик и интонаций помогает ИИ понять, кто участвует в общении.
Технология строится на двух независимых моделях. Первая анализирует временные характеристики речи и определяет структуру беседы: кто, когда и в какой последовательности говорит. Вторая очищает аудиопоток, удаляя лишние шумы и усиливая голос, связанный с диалогом.
На весь процесс системе требуется от 2 до 4 секунд, после чего она начинает стабильно отделять нужный звуковой сигнал.
Разговоры можно вести в группах до четырёх человек. Алгоритмы учитывают минимальные наложения голосов, при этом практически не создают задержки при передаче звука. В рамках тестирования участие приняли 11 добровольцев, сравнивавших качество восприятия речи в обычных условиях и с использованием умных фильтров. Участники подтвердили, что система с ИИ почти в два раза улучшает параметры разборчивости, снижает общий шум и повышает чёткость восприятия речи.
Разработка стала продолжением предыдущих экспериментов команды. Ранее предлагались модели, где пользователь должен был направлять взгляд на собеседника или регулировать «аудиопузырь» вручную, в зависимости от расстояния. Новая версия отказалась от этих действий. Алгоритм сам предсказывает намерения пользователя и активируется в нужный момент — как только он начинает говорить.
Ещё по теме:
- The Washington Post решила превратить новости в шоу и запустить подкасты на базе ИИ
- Прокуроры против чат-ботов: зачем властям США новые правила для ИИ
- Apple может оснастить бюджетный iPad 12 флагманским чипом A19