Новое исследование компании раскрывает потенциал мультимодального анализа данных: языковые модели могут точно понимать контекст активности без прослушивания самих разговоров.
Исследователи компании Apple опубликовали научную работу, посвящённую использованию больших языковых моделей (LLM) для анализа комбинации аудиоданных и показателей движения. Технология позволяет с высокой точностью определять, чем именно занят пользователь в текущий момент, объединяя разрозненные потоки информации.
Как это работает: точность без «шпионажа»
В документе под названием «Использование LLM для позднего слияния мультимодальных сенсоров при распознавании активности» (Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition) описывается метод, при котором традиционные данные с датчиков дополняются аналитическими способностями языковых моделей.
Ключевой нюанс, важный для политики конфиденциальности Apple: в рамках исследования LLM не анализировали саму аудиозапись. Вместо этого модель получала на вход:
- Короткие текстовые описания звукового окружения, сгенерированные специализированными аудиомоделями.
- Данные от инерциальных измерительных модулей (IMU), которые отслеживают движения через акселерометр и гироскоп.
Авторы утверждают, что такой подход («позднее слияние» данных) обладает огромным потенциалом. Он позволяет сделать анализ активности более точным, особенно в ситуациях, когда данных с одного типа сенсоров недостаточно.
Впечатляющие результаты без специального обучения
Исследование показало, что LLM отлично справляются с выводом о действиях пользователя на основе базовых сигналов, даже если их не обучали специально для этой задачи.
Модели продемонстрировали результаты значительно выше случайного угадывания в режимах:
- Zero-shot: классификация без предварительных примеров.
- One-shot: классификация на основе всего одного примера (при этом точность заметно возрастала).
Такой подход позволяет внедрять сложные мультимодальные функции без необходимости развёртывания ресурсоёмких специализированных моделей, что экономит память и вычислительную мощность устройств.
Детали эксперимента: от уборки до баскетбола
Для обучения и тестов использовался масштабный датасет Ego4D, содержащий тысячи часов видео, снятого от первого лица в реальных условиях. Исследователи отобрали 20-секундные фрагменты, соответствующие 12 типовым сценариям повседневной жизни:
- Бытовые задачи: уборка пылесосом, приготовление пищи, стирка, мытьё посуды.
- Досуг и спорт: чтение, работа за компьютером, просмотр ТВ, игры с домашними животными, баскетбол, футбол, силовые тренировки.
Данные пропускались через малые модели для генерации текстовых меток, которые затем подавались на вход мощным LLM — в эксперименте использовались Gemini-2.5-pro и Qwen-32B.
Эффективность оценивалась в двух сценариях: «закрытом» (модели нужно было выбрать одно действие из 12 предложенных) и «открытом» (без списка вариантов). Результаты подтвердили, что объединение контекста от разных моделей даёт гораздо более чёткую картину действий пользователя, чем «сырые» данные датчиков по отдельности.
Для поддержки научного сообщества Apple опубликовала дополнительные материалы, включая идентификаторы сегментов данных, временные метки и промпты, использованные в экспериментах, что позволит другим исследователям воспроизвести результаты.
Ещё по теме:
- Google превратила iPhone 17 и Pixel 10 в ведьм из мюзикла «Злая»
- «Что ты ищешь, Кэрол?»: Google спрятала секретное послание к сериалу «Одна из многих» от Apple TV
- Китайские регуляторы начали проверку ИИ-моделей на соответствие социалистическим ценностям