Apple работает над многочисленными проектами в области машинного обучения и искусственного интеллекта, о которых она может рассказать на WWDC 2024. И в новом опубликованном документе говорится, что некоторые из этих проектов могут помочь Siri понять, как выглядят приложения и сама iOS.

Работа, опубликованная в понедельник Корнельским университетом, называется «Ferret-UI: Основы понимания мобильного пользовательского интерфейса с помощью мультимодальных LLM». В ней, по сути, рассказывается о новой мультимодальной большой языковой модели (MLLM), которая способна понимать пользовательские интерфейсы мобильных устройств.

Название Ferret первоначально появилось благодаря мультимодальному LLM с открытым исходным кодом, выпущенному в октябре исследователями из Корнельского университета совместно с коллегами из Apple. В то время Ferret мог обнаруживать и понимать различные области изображения для выполнения сложных запросов, таких как определение вида животного по выбранной части фотографии.

В новом документе Ferret-UI объясняется, что, несмотря на значительный прогресс в использовании MLLM, они всё ещё «не в состоянии понять и эффективно взаимодействовать с экранами пользовательского интерфейса (UI)». Ferret-UI описывается как новый MLLM, предназначенный для понимания того, что происходит на экранах мобильных устройств, в комплекте с «возможностями ссылаться, обосновывать и рассуждать».

Часть проблемы, с которой сталкиваются специалисты по LLM при понимании интерфейса мобильного дисплея, заключается в том, как он используется в первую очередь. Часто в портретной ориентации иконки и другие детали могут занимать очень компактную часть экрана, что затрудняет его понимание машинами.

Чтобы помочь в этом, Ferret предлагает систему увеличения изображений до «любого разрешения», чтобы сделать иконки и текст более читаемыми.

Для обработки и обучения Ferret также делит экран на две меньшие части, разрезая его пополам. В статье говорится, что другие LLM, как правило, сканируют глобальное изображение с меньшим разрешением, что снижает способность адекватно определять, как выглядят иконки.

Если добавить к этому значительную обработку данных для обучения, то получится модель, способная достаточно хорошо понимать запросы пользователей, понимать природу различных экранных элементов и предоставлять контекстные ответы.

Например, пользователь может спросить, как открыть приложение «Напоминания», и ему ответят, что нужно нажать на кнопку на экране. Другой запрос, в котором спрашивается, может ли 15-летний подросток использовать приложение, LLM может проверить возрастные рекомендации, если они видны на дисплее.

Хотя мы не знаем, будет ли внедрён этот помощник в системы, подобные Siri, Ferret-UI предлагает возможность расширенного контроля над устройством, таким как iPhone. Понимая элементы пользовательского интерфейса, он даст возможность Siri выполнять действия за пользователя в приложениях, самостоятельно выбирая графические элементы внутри них.

Существуют также полезные приложения для людей с ослабленным зрением. Такой LLM сможет более подробно объяснять, что происходит на экране, и, возможно, выполнять действия за пользователя, не требуя от него ничего другого, кроме как запроса.


Ещё по теме: