Ученые Yandex Research и НИУ ВШЭ предложили метод, снижающий вычислительные затраты и ускоряющий генерацию изображений в диффузионных моделях без потери качества. Разработанный подход Scale-wise Distillation of Diffusion Models (SwD) позволяет получать результат за 0,3-0,4 секунды, сообщили IT Speaker в «Яндексе».

Обычно процесс генерации требует десятков шагов с вычислениями в высоком разрешении, хотя на ранних этапах формируется только общая структура. SwD решает проблему двумя способами: генерация начинается с низкого разрешения с постепенным уточнением, а также используется дистилляция обученных моделей (FLUX и Stable Diffusion 3.5), где более простая модель-студент сокращает число шагов с десятков до 4-6.
Для обучения применена новая функция потерь – Maximum Mean Discrepancy (MMD), которая сравнивает внутренние представления изображения моделью-учителем и моделью-студентом. В отличие от традиционных подходов, это не требует вспомогательных моделей, упрощая и ускоряя обучение. В экспериментах время одной итерации обучения сократилось в 7 раз.
SwD сокращает время генерации с нескольких секунд до 0,3-0,4 секунды при сохранении визуального качества, что позволяет быстрее и дешевле использовать диффузионные модели и делает их доступнее для практического применения.
Ранее разработчики компании ByteDance запустили новую open-source модель для генерации картинок с 14 млрд параметров под названием BitDance. По производительности она обогнала всех, включая Z-Image-Turbo, Z-Image, Seedream 3.0 и GPT Image, Flux.
ИИ Claude начал спрашивать паспорт у пользователей