Apple выпустила новое исследование, выполненное в сотрудничестве с Университетом Аалто в Финляндии. В рамках проекта была разработана модель искусственного интеллекта ILuvUI — мультимодальная система, способная анализировать интерфейсы мобильных приложений по скриншотам и описаниям на естественном языке. Исследователи утверждают, что это важный шаг к тому, чтобы ИИ мог воспринимать и интерпретировать интерфейсы так же, как это делает человек.
Разработка получила название ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations. Как объясняют авторы, интерфейсы приложений включают в себя сложные элементы — списки, чекбоксы, текстовые поля — и несут в себе больше информации, чем просто функциональные кнопки. Традиционные языковые модели хорошо справляются с текстовыми инструкциями, но теряют важный контекст, если не видят визуальную составляющую экрана.
Сегодня большинство мультимодальных моделей обучаются на обычных изображениях — вроде пейзажей, животных или уличных знаков. Поэтому они плохо справляются с распознаванием и анализом интерфейсов приложений, где структура и логика представлены совсем иначе. Именно эту проблему и попытались решить исследователи, доработав открытую VLM-модель LLaVA и адаптировав её для задач, связанных с пользовательскими интерфейсами.
Для обучения ILuvUI команда использовала синтетически сгенерированные пары «изображение + текст». Они были созданы на основе «эталонных примеров» и включали вопросы и ответы, подробные описания экранов, предсказания последствий пользовательских действий и даже пошаговые инструкции — например, как включить последний эпизод подкаста или изменить яркость экрана.
После обучения ILuvUI превзошла оригинальную LLaVA как в машинных тестах, так и в пользовательских оценках. Ключевое преимущество модели — она не требует предварительного выделения интересующей области на экране. Достаточно одного текстового запроса и изображения интерфейса — модель сама интерпретирует контекст и выдаёт ответ. Это позволяет использовать её для задач визуального поиска по интерфейсу, анализа действий, тестирования и даже простого общения с пользователем.
Apple отмечает, что ILuvUI может принести пользу в сфере универсального доступа, а также в автоматизированном тестировании интерфейсов. Несмотря на то что модель пока основана на открытых компонентах, в будущем исследователи планируют расширить её возможности с помощью более мощных визуальных энкодеров, поддержки высокого разрешения и улучшенной интеграции с популярными UI-фреймворками — например, через вывод данных в формате JSON.
Авторы также напоминают о другом недавнем исследовании Apple, в котором изучалась возможность не только распознавать интерфейсные элементы, но и предсказывать последствия конкретных действий внутри приложений. Если объединить обе эти технологии, появляется мощный инструмент — особенно для пользователей с ограниченными возможностями или для тех, кто хочет, чтобы операционная система сама справлялась с рутинными задачами.
Ещё по теме:
- OpenAI, Google и Anthropic предупредили, что мы можем потерять способность понимать ИИ
- Firefox останется единственным браузером поддерживаемым macOS Big Sur
- Разработчиков возмутило, что Apple собирается удалить игру, не обновлявшуюся 7 лет