Apple представила языковую модель, которая невероятно быстро пишет длинные тексты

Новая модель FS-DFM может создавать большие объёмы текста в разы быстрее традиционных ИИ

1 мин.
Apple представила языковую модель, которая невероятно быстро пишет длинные тексты

Исследователи Apple анонсировали новый подход к генерации длинных текстов — диффузионную языковую модель, способную писать до 128 раз быстрее своих аналогов. Стандартные модели вроде ChatGPT работают по авторегрессивному принципу: они генерируют текст по одному токену за раз, ориентируясь на предыдущий контекст. Диффузионные же модели создают сразу несколько слов параллельно и постепенно уточняют результат за несколько итераций.

Одна из вариаций диффузионных моделей, так называемые flow-matching модели, вообще пропускает промежуточные шаги и учится выдавать финальный текст в один приём.

В своей новой научной работе Apple совместно с Университетом штата Огайо представила модель FS-DFM (Few-Step Discrete Flow-Matching). Она генерирует длинные абзацы всего за восемь быстрых этапов, демонстрируя качество, сравнимое с лучшими диффузионными моделями, которым требуются тысячи шагов для такого результата.

Чтобы добиться этого, исследователи применили трёхэтапный подход: сначала модель обучалась работать с разным количеством итераций уточнения, затем специальная «учительская» модель помогала совершать более крупные и точные обновления без искажения смысла, а на последнем шаге была оптимизирована сама стратегия итераций.

На практике FS-DFM превзошла крупные диффузионные языковые модели по двум ключевым метрикам — перплексии и энтропии. Перплексия отражает точность и естественность текста (чем она ниже — тем лучше качество), а энтропия показывает, насколько уверенно модель выбирает каждое слово (при слишком низкой текст выходит однообразным, а при избыточной — бессвязным).

FS-DFM, несмотря на относительно небольшой размер (1,7; 1,3 и даже 0,17 млрд параметров), стабильно показывала меньшую перплексию и устойчивую энтропию по сравнению с крупнейшими моделями Dream (7 млрд параметров) и LLaDA (8 млрд параметров).

Учитывая полученные результаты и потенциал нового подхода, Apple планирует вскоре опубликовать код и контрольные точки своих моделей для дальнейших исследований и повышения воспроизводимости. Полную статью с технической детализацией и примерами работы модели можно найти на arXiv.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN