Специалисты Лаборатории речевых технологий Гронингенского университета заявили о создании мультимодального алгоритма, позволяющего улучшить процесс выявления сарказма. Этот алгоритм анализирует огромное количество характеристик аудиозаписи, чтобы увеличить точность результата.
По словам учёных, многие люди и сами не всегда способны определить иронию или саркастические фразы во время общения с другим человеком. А если подобную манеру речи использовать при общении с компьютером, то алгоритмы и вовсе сбиваются с толку, что существенно ограничивает возможности современных виртуальных помощников и программ для анализа аудиоконтента.
При этом отмечается, что ранее уже были разработаны различные алгоритмы выявления сарказма, но практически все из них полагались только на один параметр для получения результатов. Это и является основной причиной, из-за которой компьютер практически никогда не справляется с этой задачей успешно.
Нидерландские исследователи в ходе своей работы применили два взаимодополняющих подхода: компьютер анализировал настроение с использованием текста и распознавал эмоции с помощью звука. Это позволяло новому алгоритму получить более полную картину.
На первом этапе своей работы нидерландские специалисты извлекли из речи сразу несколько акустических параметров, среди которых основными являлись: высота тона, скорость речи и энергия. После этого они воспользовались функцией автоматического распознавания речи, чтобы транскрибировать её в текст для последующего анализа настроения.
Сиюань Гао, один из авторов исследования, заявил, что после транскрибации каждому сегменту речи были присвоены смайлы для отражения эмоционального содержания. Благодаря интеграции мультимодальных сигналов в алгоритм машинного обучения, он имеет возможность пользоваться всеми преимуществами текстовой и аудиоинформации, в том числе созданными специалистами смайликами, что позволяет комплексно проанализировать изначальный контент на наличие в нём сарказма.
Представители Лаборатории речевых технологий Гронингенского университета заявили, что их алгоритм уже на данном этапе разработки отличается достаточно высокой производительностью, но при этом есть множество возможностей для улучшения его работы.
Сиюань Гао резюмировал, что в разработанный алгоритм необходимо уже сейчас добавлять разные новые выражения и жесты, потому как сарказм и ирония могут существенно отличаться в зависимости от контекста и культуры говорящего.
Ещё по теме:
- iPhone 16 Pro Max может отличаться более длительным сроком службы аккумулятора
- OpenAI и Reddit объединятся для усовершенствования работы своих сервисов
- Производство iPhone 16 начнётся в ближайшее время