Исследовательская группа Apple представила UniGen 1.5 — передовую систему искусственного интеллекта, которая объединяет понимание изображений, их генерацию и редактирование в рамках одной модели. Это развитие концепции, заложенной в предыдущей версии UniGen, направленное на создание универсального мультимодального инструмента.
Эволюция UniGen
В мае 2025 года команда исследователей Apple опубликовала работу «UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation». В ней была представлена единая мультимодальная большая языковая модель (MLLM), способная одновременно анализировать и создавать изображения, что позволило отказаться от использования отдельных узкоспециализированных нейросетей для каждой задачи.
Теперь Apple выпустила продолжение этого исследования — научную статью «UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning».
Как работает UniGen 1.5
Ключевая особенность новой версии — добавление возможности редактирования изображений в ту же единую архитектуру. Ранее задачи понимания, генерации и правки контента часто распределялись между разными системами.
Объединение этих функций в одном механизме — сложная инженерная задача, поскольку генерация и анализ требуют принципиально разных подходов. Однако исследователи Apple утверждают, что единая модель способна использовать свои навыки «понимания» для значительного улучшения качества генерации.
Одной из главных проблем редактирования изображений специалисты называют неспособность моделей полностью уловить сложные инструкции, особенно когда требуются тонкие или специфические изменения. Для решения этой задачи в UniGen 1.5 внедрён новый этап пост-обучения, названный «Выравнивание инструкций редактирования» (Edit Instruction Alignment).
«Мы заметили, что даже после тонкой настройки с учителем (supervised fine-tuning) модель остаётся неэффективной в разнообразных сценариях редактирования из-за недостаточного понимания инструкций. Поэтому мы предлагаем "Выравнивание инструкций редактирования" как простой этап для улучшения связи между инструкцией и смысловым содержанием целевого изображения. В частности, система принимает исходное изображение и инструкцию, обучаясь предсказывать семантическое содержание результата в виде текстового описания. Эксперименты подтверждают, что этот этап критически важен для повышения качества редактирования», — говорится в исследовании.
Иными словами, прежде чем переходить к обучению с подкреплением (где нейросеть поощряют за хорошие результаты и штрафуют за плохие), исследователи учат её сначала формулировать подробное текстовое описание того, что должно получиться в итоге. Этот промежуточный шаг помогает модели лучше «осознать» суть правки перед тем, как перерисовывать изображение.

Ещё одним важным вкладом научной работы стало использование единой системы вознаграждений для генерации и редактирования в рамках обучения с подкреплением. Ранее это было труднореализуемо, так как правки могут варьироваться от едва заметных штрихов до полной трансформации картинки.
Результаты и сравнение с конкурентами
Тестирование UniGen 1.5 на отраслевых бенчмарках, оценивающих точность следования инструкциям, визуальное качество и сложность редактирования, показало впечатляющие результаты. Модель либо соответствует уровню, либо превосходит многие передовые открытые и проприетарные мультимодальные системы.
- Генерация: В тестах GenEval и DPG-Bench модель набрала 0,89 и 86,83 балла соответственно, значительно опередив такие решения, как BAGEL и BLIP3o.
- Редактирование: В бенчмарке ImgEdit оценка UniGen 1.5 составила 4,31. Это выше показателей недавней открытой модели OminiGen2 и сопоставимо с закрытой моделью GPT-Image-1.
Эти данные подтверждают, что UniGen 1.5 создаёт мощную базу для дальнейших исследований в области унифицированных MLLM, демонстрируя конкурентоспособность сразу в трёх дисциплинах: понимании, генерации и редактировании.
Ограничения и перспективы
Несмотря на успехи, исследователи отмечают недостатки текущей версии. UniGen 1.5 испытывает трудности с генерацией текста внутри изображений, а также с сохранением идентичности объектов при определённых условиях.

В отчёте приводятся примеры сбоев:
- Текст: Модель не всегда корректно отрисовывает символы, так как используемый «легковесный дискретный детокенизатор» плохо контролирует мелкие структурные детали.
- Идентичность: В некоторых случаях наблюдаются нежелательные сдвиги в деталях — например, изменение текстуры шерсти у кошки или цвета оперения у птицы при редактировании других аспектов изображения.
Команда Apple признаёт, что для устранения этих ограничений потребуются дальнейшие доработки.
Полный текст исследования доступен на портале arXiv.