Исследователи Apple выпустили новую модель искусственного интеллекта с открытым исходным кодом, способную редактировать изображения на основе пользовательских запросов на естественном языке.
Модель под названием MGIE, что расшифровывается как MLLM-Guided Image Editing, использует мультимодальные большие языковые модели (MLLM) для интерпретации запросов пользователя и выполнения работ.
Модель способна редактировать различные аспекты изображений. Глобальные улучшения фотографий могут включать в себя яркость, контрастность, резкость или применение художественных эффектов. С помощью локального редактирования можно изменить форму, размер, цвет или текстуру определённых областей или объектов на изображении, а модификации в стиле Photoshop могут включать обрезку, изменение размера, поворот и добавление фильтров, или даже изменение фона и объединение изображений.
Пользователь может ввести для фотографии пиццы команду «сделать её более полезной». Используя логику здравого смысла, модель может добавить овощные начинки, например помидоры и зелень. Запрос на глобальную оптимизацию может иметь вид вроде: «добавить контраста, чтобы имитировать больше света», а модификация в стиле Photoshop может быть сделана, если попросить модель убрать людей с заднего плана фотографии, переместив фокус изображения на выражение лица объекта.
Apple сотрудничала с исследователями Калифорнийского университета при создании MGIE, которая была представлена в докладе на Международной конференции по обучению представлениям (ICLR) 2024. Модель доступна на GitHub и включает в себя код, данные и предварительно обученные модели.
Это уже второй прорыв Apple в области исследований ИИ за последние несколько месяцев. В конце декабря компания сообщила, что ей удалось добиться успехов в развёртывании больших языковых моделей (LLM) на iPhone и других устройствах Apple с ограниченным объёмом накопителей благодаря изобретению инновационной технологии использования флеш-памяти.
В течение последних нескольких месяцев Apple тестировала Apple GPT, который мог бы составить конкуренцию ChatGPT. По словам Марка Гурмана из Bloomberg, работа над искусственным интеллектом является приоритетной для Apple: компания разрабатывает Ajax-фреймворк для больших языковых моделей.
Ещё по теме:
- Фейковый Джо Байден уговаривал демократов в США не ходить на голосование
- Робопёс будет контролировать радиацию на Большом адронном коллайдере
- Mozilla запустила новый сервис Monitor Plus, позволяющий удалить ваши личные данные