В новом исследовании команда инженеров Apple описала нестандартный подход к улучшению работы больших языковых моделей (LLM). Фреймворк, получивший название LaDiR (Latent Diffusion Enhances LLMs for Text Reasoning), призван повысить качество ответов нейросетей в задачах, требующих математической логики, написания программного кода и пространственного планирования.
Разработка велась совместно с учёными из Калифорнийского университета в Сан-Диего. В основе LaDiR лежит концептуальное объединение двух архитектурных подходов. Традиционно языковые модели генерируют текст авторегрессивно, то есть предсказывают слова строго одно за другим. Диффузионные же модели способны обрабатывать множество токенов параллельно за один проход.
Как работает алгоритм
Вместо того чтобы создавать нейросеть с нуля, Apple разработала фреймворк, который можно интегрировать поверх уже существующих ИИ-продуктов. По сути, LaDiR меняет сам процесс «мышления» модели при поиске решения проблемы.
Когда алгоритм готовит ответ на запрос пользователя, он не начинает печатать его моментально. Сначала система генерирует серию скрытых блоков рассуждений, причём каждая такая цепочка начинается со случайного паттерна («шума») и постепенно выстраивается в осмысленный логический шаг. Главное нововведение заключается в том, что фреймворк запускает сразу несколько подобных путей рассуждения параллельно.
Специальный механизм намеренно подталкивает нейросеть к изучению совершенно разных идей. Это не позволяет алгоритму преждевременно останавливаться на одном очевидном, но потенциально ошибочном варианте. Лишь после того, как этап многопоточного анализа завершён, алгоритм переключается на классическую генерацию и пословно выдаёт пользователю итоговый текст.
Результаты тестирования
В ходе экспериментов исследователи применили LaDiR к двум открытым моделям: LLaMA 3.1 8B (для проверки математических способностей и решения головоломок) и Qwen3-8B-Base (для задач по программированию).
Результаты тестов показали следующее:
- В задачах на написание кода (например, в бенчмарке HumanEval) модели с LaDiR выдавали более надёжные результаты, заметно превзойдя стандартные методы дообучения на сложных задачах.
- В математических вычислениях фреймворк продемонстрировал более высокую точность, в том числе при решении нетипичных проблем, выходящих за рамки исходной обучающей выборки.
- В логических играх, требующих планирования, алгоритм исследовал более широкий спектр возможных ходов. Он находил правильные решения чаще, чем любые универсальные базовые ИИ-модели, хотя всё же немного уступил узкоспециализированным системам в точности ответов с первой попытки.
По сути, разработка LaDiR наглядно показывает, что для качественного скачка в логике ИИ не нужно с нуля обучать сверхмассивные нейросети. За счёт объединения двух разных архитектур инженеры Apple заставили алгоритмы буквально брать паузу на раздумья и параллельно взвешивать всё множество возможных решений. В перспективе такой подход может стать элегантным стандартом для всей индустрии: он позволяет наделить уже существующие открытые языковые модели по-настоящему глубоким и надёжным аналитическим аппаратом без колоссальных вычислительных затрат на их перевыпуск.