Apple обучила ИИ понимать интерфейсы приложений

Компания представила модель, способную рассуждать о действиях в мобильных интерфейсах

2 мин.
Apple обучила ИИ понимать интерфейсы приложений

Apple выпустила новое исследование, выполненное в сотрудничестве с Университетом Аалто в Финляндии. В рамках проекта была разработана модель искусственного интеллекта ILuvUI — мультимодальная система, способная анализировать интерфейсы мобильных приложений по скриншотам и описаниям на естественном языке. Исследователи утверждают, что это важный шаг к тому, чтобы ИИ мог воспринимать и интерпретировать интерфейсы так же, как это делает человек.

Разработка получила название ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations. Как объясняют авторы, интерфейсы приложений включают в себя сложные элементы — списки, чекбоксы, текстовые поля — и несут в себе больше информации, чем просто функциональные кнопки. Традиционные языковые модели хорошо справляются с текстовыми инструкциями, но теряют важный контекст, если не видят визуальную составляющую экрана.

Сегодня большинство мультимодальных моделей обучаются на обычных изображениях — вроде пейзажей, животных или уличных знаков. Поэтому они плохо справляются с распознаванием и анализом интерфейсов приложений, где структура и логика представлены совсем иначе. Именно эту проблему и попытались решить исследователи, доработав открытую VLM-модель LLaVA и адаптировав её для задач, связанных с пользовательскими интерфейсами.

Для обучения ILuvUI команда использовала синтетически сгенерированные пары «изображение + текст». Они были созданы на основе «эталонных примеров» и включали вопросы и ответы, подробные описания экранов, предсказания последствий пользовательских действий и даже пошаговые инструкции — например, как включить последний эпизод подкаста или изменить яркость экрана.

После обучения ILuvUI превзошла оригинальную LLaVA как в машинных тестах, так и в пользовательских оценках. Ключевое преимущество модели — она не требует предварительного выделения интересующей области на экране. Достаточно одного текстового запроса и изображения интерфейса — модель сама интерпретирует контекст и выдаёт ответ. Это позволяет использовать её для задач визуального поиска по интерфейсу, анализа действий, тестирования и даже простого общения с пользователем.

Apple отмечает, что ILuvUI может принести пользу в сфере универсального доступа, а также в автоматизированном тестировании интерфейсов. Несмотря на то что модель пока основана на открытых компонентах, в будущем исследователи планируют расширить её возможности с помощью более мощных визуальных энкодеров, поддержки высокого разрешения и улучшенной интеграции с популярными UI-фреймворками — например, через вывод данных в формате JSON.

Авторы также напоминают о другом недавнем исследовании Apple, в котором изучалась возможность не только распознавать интерфейсные элементы, но и предсказывать последствия конкретных действий внутри приложений. Если объединить обе эти технологии, появляется мощный инструмент — особенно для пользователей с ограниченными возможностями или для тех, кто хочет, чтобы операционная система сама справлялась с рутинными задачами.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN