Исследователи Apple анонсировали новый подход к генерации длинных текстов — диффузионную языковую модель, способную писать до 128 раз быстрее своих аналогов. Стандартные модели вроде ChatGPT работают по авторегрессивному принципу: они генерируют текст по одному токену за раз, ориентируясь на предыдущий контекст. Диффузионные же модели создают сразу несколько слов параллельно и постепенно уточняют результат за несколько итераций.
Одна из вариаций диффузионных моделей, так называемые flow-matching модели, вообще пропускает промежуточные шаги и учится выдавать финальный текст в один приём.
В своей новой научной работе Apple совместно с Университетом штата Огайо представила модель FS-DFM (Few-Step Discrete Flow-Matching). Она генерирует длинные абзацы всего за восемь быстрых этапов, демонстрируя качество, сравнимое с лучшими диффузионными моделями, которым требуются тысячи шагов для такого результата.
Чтобы добиться этого, исследователи применили трёхэтапный подход: сначала модель обучалась работать с разным количеством итераций уточнения, затем специальная «учительская» модель помогала совершать более крупные и точные обновления без искажения смысла, а на последнем шаге была оптимизирована сама стратегия итераций.
На практике FS-DFM превзошла крупные диффузионные языковые модели по двум ключевым метрикам — перплексии и энтропии. Перплексия отражает точность и естественность текста (чем она ниже — тем лучше качество), а энтропия показывает, насколько уверенно модель выбирает каждое слово (при слишком низкой текст выходит однообразным, а при избыточной — бессвязным).
FS-DFM, несмотря на относительно небольшой размер (1,7; 1,3 и даже 0,17 млрд параметров), стабильно показывала меньшую перплексию и устойчивую энтропию по сравнению с крупнейшими моделями Dream (7 млрд параметров) и LLaDA (8 млрд параметров).
Учитывая полученные результаты и потенциал нового подхода, Apple планирует вскоре опубликовать код и контрольные точки своих моделей для дальнейших исследований и повышения воспроизводимости. Полную статью с технической детализацией и примерами работы модели можно найти на arXiv.
Ещё по теме:
- В Калифорнии приняли новый закон по проверке возраста: Google и Facebook* поддерживают, Apple — против
- Второе поколение Apple Pro Display XDR: что известно об обновлении и новых возможностях
- Apple TV: яркая идентичность выходит на сцену