Apple представила нейросеть, способную определять эмоции в голосе человека

В исследовательском подразделении Apple разработали ИИ-систему, анализирующую не содержание сказанного, а звуковые характеристики речи. Новый алгоритм предназначен для оценки эмоционального состояния человека по особенностям звучания его голоса, что открывает путь к более «живому» и персонализированному взаимодействию с техникой.

Для создания модели использовались аудиозаписи с речью людей, страдающих неврологическими нарушениями — например, болезнью Паркинсона и боковым амиотрофическим склерозом.

При обучении нейросети применялись семь фонетических признаков, в том числе плавность, громкость, разборчивость и монотонность. Эти параметры традиционно оцениваются при медицинском обследовании, а теперь стали доступны и алгоритмам.

Система демонстрирует не просто результат анализа, но поясняет, какие именно характеристики голоса оказались определяющими. Такая прозрачность в работе делает технологию перспективной для телемедицинских сервисов, особенно при наблюдении за динамикой состояния пациентов.

Разработчики провели тестирование модели на нейтральной и эмоционально окрашенной речи из открытых источников. Несмотря на отсутствие обучения на подобных примерах, ИИ смог выделить характерные паттерны — например, тревожные или раздражённые интонации сопровождались нестабильной громкостью, тогда как печальная речь отличалась равномерным, глушёным тоном.

Если встроить такую систему в устройства Apple (от смартфонов до наушников), пользователи получат не просто ассистента, а собеседника, восприимчивого к настроению. Siri сможет менять стиль общения в зависимости от голоса владельца, подбирая более подходящие интонации и словесные формулы. Это придаст диалогу с техникой более живой и интуитивный характер.