Исследовательская команда Apple опубликовала работу, которая может изменить подход к обучению искусственного интеллекта в креативных индустриях. Компания отказалась от популярных методов тренировки через простое «одобрение» (лайки/дизлайки) и заставила нейросети учиться так, как это делают живые стажёры – через правки красной ручкой, скетчи и прямые исправления в коде.
Проблема «пальца вверх»
До сих пор стандартом в индустрии считался метод RLHF (обучение с подкреплением на основе отзывов людей). Обычно это выглядит так: нейросеть выдаёт два варианта ответа, а человек выбирает лучший. Для текста это работает неплохо, но для визуального дизайна оказалось провалом.
В исследовании Apple говорится, что бинарный выбор игнорирует сложную логику, стоящую за дизайнерскими решениями. Профессионал не просто «выбирает вариант А», он видит, почему вариант Б плох: здесь нарушена иерархия, там «поплыла» вёрстка, а тут неудачный контраст.
1460 уроков от профи
Чтобы исправить это, Apple пригласила 21 профессионального дизайнера с опытом от 2 до 30 лет. Вместо того чтобы заставлять их кликать по вариантам, им дали работать в «родном» формате. Эксперты оставили 1460 подробных аннотаций трёх типов:
- Текстовые комментарии (объяснение ошибок).
- Визуальные скетчи (наброски поверх интерфейса, показывающие, как надо).
- Правки кода (прямое редактирование HTML/CSS для идеального результата).
Эти данные превратили в учебные примеры для «модели вознаграждения», которая затем оценивала работу генератора интерфейсов.
Давид побеждает Голиафа
В качестве основы для экспериментов использовали открытую модель Qwen2.5-Coder (разработка Alibaba), а не собственные закрытые LLM Apple, что само по себе интересно для индустрии.
Результаты оказались сенсационными. Модели, обученные на «живых» правках (особенно на скетчах и коде), начали выдавать интерфейсы на голову выше тех, что учились на классических рейтингах.
Самый впечатляющий вывод отчёта: небольшая модель Qwen3-Coder, дообученная всего на 181 скетче от дизайнеров, в тестах на генерацию UI превзошла гиганта GPT-5. Это доказывает, что в сложных творческих задачах качество экспертных данных бьёт огромные вычислительные мощности.
Субъективность как враг
Исследование также вскрыло главную проблему оценки дизайна – вкусовщину. Когда исследователи просили разных дизайнеров просто оценить (ранжировать) одни и те же пары интерфейсов, их мнения совпадали лишь в 49,2% случаев. Это даже хуже, чем подбрасывание монетки.
Однако, когда обратная связь давалась через скетчи, согласованность вырастала до 63,6%, а при прямых правках кода – до 76,1%. Вывод Apple прост: когда эксперт показывает как надо, а не просто говорит что лучше, нейросеть (и коллеги-люди) понимают задачу гораздо точнее.