В исследовательском подразделении Apple разработали ИИ-систему, анализирующую не содержание сказанного, а звуковые характеристики речи. Новый алгоритм предназначен для оценки эмоционального состояния человека по особенностям звучания его голоса, что открывает путь к более «живому» и персонализированному взаимодействию с техникой.
Для создания модели использовались аудиозаписи с речью людей, страдающих неврологическими нарушениями — например, болезнью Паркинсона и боковым амиотрофическим склерозом.
При обучении нейросети применялись семь фонетических признаков, в том числе плавность, громкость, разборчивость и монотонность. Эти параметры традиционно оцениваются при медицинском обследовании, а теперь стали доступны и алгоритмам.
Система демонстрирует не просто результат анализа, но поясняет, какие именно характеристики голоса оказались определяющими. Такая прозрачность в работе делает технологию перспективной для телемедицинских сервисов, особенно при наблюдении за динамикой состояния пациентов.
Разработчики провели тестирование модели на нейтральной и эмоционально окрашенной речи из открытых источников. Несмотря на отсутствие обучения на подобных примерах, ИИ смог выделить характерные паттерны — например, тревожные или раздражённые интонации сопровождались нестабильной громкостью, тогда как печальная речь отличалась равномерным, глушёным тоном.
Если встроить такую систему в устройства Apple (от смартфонов до наушников), пользователи получат не просто ассистента, а собеседника, восприимчивого к настроению. Siri сможет менять стиль общения в зависимости от голоса владельца, подбирая более подходящие интонации и словесные формулы. Это придаст диалогу с техникой более живой и интуитивный характер.
Ещё по теме:
- Пранк с Apple Pay закончился наручниками для тиктокера
- Минспорт России готовится оснастить фиджитал-центры игровой техникой почти на 500 млн рублей
- В России готовится запрет на вход через зарубежную почту на всех отечественных сайтах