Южнокорейские специалисты сообщили о разработке нового инструмента искусственного интеллекта, способного генерировать изображение за 1,5-2 секунды по заданному текстовому описанию пользователя. Для работы этого инструмента не требуется какого-либо специализированного или дорогостоящего оборудования.
При создании инструмента разработчики применили специальную технику — дистилляцию знаний, которая была необходима, чтобы сжать размер модели генерации картинок с открытым исходным кодом, Stable Diffusion XL. Эта модель имеет около 2,5 млрд параметров или переменных, которые нейросеть использует для обучения.
Самая простая версия новой модели искусственного интеллекта, которая называется KOALA, имеет 700 млн параметров. Отмечается, что это достаточно «компактная» нейросеть, которая работает быстро и без необходимости использования энергоёмкого и дорогого оборудования.
Инструмент такого типа может работать с недорогими доступными для широкого круга пользователей графическими процессорами и требует 8 ГБ оперативной памяти, чтобы обрабатывать все пользовательские запросы.
В ходе проведения тестирования нейросеть KOALA смогла создавать изображения на основе простого промпта («картинка астронавта, который читает книгу под луной на Марсе») примерно за 1,6 секунды. В соответствии с официальным описанием, DALL·E 2 от компании OpenAI затратит на аналогичную задачу 12,3 секунды, а DALL·E 3 — 13,7 секунды.
Южнокорейские специалисты представили результаты своей работы в статье [PDF] на сервисе arXiv. На данный момент их проект доступен через репозиторий искусственного интеллекта с открытым исходным кодом Hugging Face.
Ещё по теме: