Apple улучшает качество ИИ при помощи простых чек-листов

Исследование показало, что оценка по пунктам эффективнее привычной схемы поощрений

1 мин.
Apple улучшает качество ИИ при помощи простых чек-листов

Компания Apple представила исследование, в котором продемонстрировала: использование чек-листов для оценки ответов больших языковых моделей (LLM) даёт лучшие результаты, чем классическая система поощрения от людей. Новый метод под названием Reinforcement Learning from Checklist Feedback (RLCF) оказался эффективнее традиционного обучения с подкреплением через человеческую обратную связь (RLHF).

После основного обучения LLM обычно донастраиваются при помощи RLHF: люди оценивают ответы моделей — ставят «плюс» за хороший результат и «минус» за неудачный. Однако в новой работе исследователи сравнили эту систему с подходом, где каждое задание сопровождается конкретным чек-листом с пунктами типа «Есть ли перевод на испанский?» или «Указаны ли источники?». Модель получает оценку от 0 до 100 за выполнение каждого пункта, и эти оценки становятся основой для дальнейшего обучения.

Испытания проводились на пяти известных тестовых наборах: FollowBench, InFoBench и Arena-Hard. В каждом из них метод RLCF показал прирост качества: +4 пункта в FollowBench, +6 в InFoBench и +3 к «проценту побед» в Arena-Hard. Это особенно важно для ИИ-ассистентов, которым пользователи всё чаще доверяют выполнение сложных и многоступенчатых задач.

Для генерации чек-листов использовались сами языковые модели: сначала было создано 130 000 инструкций, к которым автоматически составили соответствующие списки критериев — на их основе родился новый датасет WildChecklists. В роли судьи выступала мощная модель Qwen2.5-72B-Instruct, которая оценивала ответы менее мощных моделей.

Авторы подчёркивают, что подход RLCF применим в первую очередь к задачам со сложными инструкциями. Он не решает вопросы безопасности и требует наличия мощной модели для оценки, что ограничивает его универсальность. Тем не менее, исследование показывает: даже простые инструменты, вроде чек-листов, могут существенно повысить точность и надёжность LLM, особенно в условиях всё более «агентной» роли ИИ в повседневной жизни.

Чем сложнее задачи, которые пользователи ставят перед ассистентами на базе ИИ, тем важнее становится надёжное следование инструкциям — и чек-листы могут сыграть в этом ключевую роль.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN