Новая модель искусственного интеллекта от Apple позволяет редактировать изображения на основе естественных запросов пользователя

Можно самому скачать и попробовать

2 мин.
Новая модель искусственного интеллекта от Apple позволяет редактировать изображения на основе естественных запросов пользователя

Исследователи Apple выпустили новую модель искусственного интеллекта с открытым исходным кодом, способную редактировать изображения на основе пользовательских запросов на естественном языке.

Модель под названием MGIE, что расшифровывается как MLLM-Guided Image Editing, использует мультимодальные большие языковые модели (MLLM) для интерпретации запросов пользователя и выполнения работ.

Модель способна редактировать различные аспекты изображений. Глобальные улучшения фотографий могут включать в себя яркость, контрастность, резкость или применение художественных эффектов. С помощью локального редактирования можно изменить форму, размер, цвет или текстуру определённых областей или объектов на изображении, а модификации в стиле Photoshop могут включать обрезку, изменение размера, поворот и добавление фильтров, или даже изменение фона и объединение изображений.

Пользователь может ввести для фотографии пиццы команду «сделать её более полезной». Используя логику здравого смысла, модель может добавить овощные начинки, например помидоры и зелень. Запрос на глобальную оптимизацию может иметь вид вроде: «добавить контраста, чтобы имитировать больше света», а модификация в стиле Photoshop может быть сделана, если попросить модель убрать людей с заднего плана фотографии, переместив фокус изображения на выражение лица объекта.

Apple сотрудничала с исследователями Калифорнийского университета при создании MGIE, которая была представлена в докладе на Международной конференции по обучению представлениям (ICLR) 2024. Модель доступна на GitHub и включает в себя код, данные и предварительно обученные модели.

Это уже второй прорыв Apple в области исследований ИИ за последние несколько месяцев. В конце декабря компания сообщила, что ей удалось добиться успехов в развёртывании больших языковых моделей (LLM) на iPhone и других устройствах Apple с ограниченным объёмом накопителей благодаря изобретению инновационной технологии использования флеш-памяти.

В течение последних нескольких месяцев Apple тестировала Apple GPT, который мог бы составить конкуренцию ChatGPT. По словам Марка Гурмана из Bloomberg, работа над искусственным интеллектом является приоритетной для Apple: компания разрабатывает Ajax-фреймворк для больших языковых моделей.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube