Stable Diffusion XL. Выбираем модели, рефайнеры, лоры и стили

BOOX · 15/5/24

Если ты соберешься запускать на своем компьютере генеративные модели для создания изображений, то перед тобой встанет серьезная проблема выбора: их множество, и все они дают похожие, но все же немного разные результаты.

В этой статье поговорим об этих отличиях, а также о рефайнерах, стилях, лорах и особенностях промптинга.
Мы продолжим изучать возможности генеративной нейросети Stable Diffusion XL, о которой я уже писал. В

Для просмотра ссылки необходимо нажать Вход или Регистрация

мы освоили установку нейросети на компьютер, сгенерировали несколько фотореалистичных изображений, познакомились с общей бедой современных нейросетей — пальцами руки — и попробовали их исправить.

В качестве инструмента по‑прежнему будем использовать Fooocus. В то же время эта статья — последняя, где я его использую. В следующий раз перейдем на более продвинутую сборку — AUTOMATIC1111.

РАЗЛИЧИЯ МЕЖДУ ПРЕСЕТАМИ

В прошлый раз мы генерировали фотореалистичные изображения, запустив Fooocus командой run_realistic.bat, однако фотографиями Stable Diffusion не ограничивается. Запустив нейросеть командой run.bat, мы автоматически переключимся на другие, универсальные настройки. Из строки негативных ключевиков пропадут термины, запрещающие художественные стили, а из списка подключенных «лор» исчезнет та, которая отвечает за фотореалистичность.

INFO
LoRA (Low-Rank Adaptation) — компактные модели, дополняющие основные.

При запуске какого‑либо файла Fooocus использует настройки из соответствующего пресета (они лежат в папке Fooocus\presets). По этой причине стоит запускать файлы корректной командой в зависимости от типа изображений, которые ты собираешься генерировать.

Раз уж мы заговорили о пресетах, то разница между фотореалистичными (run_realistic.bat) и основными (run.bat) настройками такова.

В фотореалистичном пресете базовая модель — realisticStockPhoto_v10, лора — SDXL_FILM_PHOTOGRAPHY_STYLE_BetaV0.4, негативные ключевые слова — unrealistic, saturated, high contrast, big nose, painting, drawing, sketch, cartoon, anime, manga, render, CG, 3d, watermark, signature, label, активные по умолчанию стили — динамический стиль Fooocus V2, а также Fooocus Photograph и Fooocus Negative.

В основном же пресете, который запускается командой run.bat, настройки другие. В качестве базовой модели авторы выбрали juggernautXL_version6Rundiffusion (хорошая универсальная модель), лора — sd_xl_offset_example-lora_1.0 (ее предназначение с дефолтной настройкой — увеличивать контраст; на высоких весовых коэффициентах может помочь генерировать изображения с глубоким черным цветом). Никаких негативных ключевых слов на сей раз нет, а в качестве стилей выставлен набор из уже знакомого динамического улучшайзера Fooocus V2 и новых стилей Fooocus Enhance и Fooocus Sharp.

Значение здесь имеет буквально всё, и начнем мы с главного — выбора базовой модели.

БАЗОВЫЕ МОДЕЛИ

Базовая модель, или чекпоинт, — это генеративная модель, используемая для преобразования текста в изображения алгоритмами Stable Diffusion. В зависимости от выбора модели на один и тот же запрос с одним и тем же сидом и прочими настройками ты можешь получить как похожие изображения, выполненные в разных стилях, так и совершенно разные картинки.

В качестве основных Fooocus поддерживает только модели SDXL 1.0, а вот в качестве рефайнера (Refiner) может использовать как их, так и старые модели от SD 1.5. О рефайнерах мы поговорим чуть ниже; пока что ты можешь скачать одну или несколько моделей в дополнение к juggernautXL_version6Rundiffusion, которую Fooocus скачает автоматически при запуске run.exe. Сохранять чекпоинты нужно в папку Fooocus\models\checkpoints или в любую другую, если ты укажешь к ней путь в файле Fooocus\config.txt. Например, так:

"path_checkpoints": "d:\\Models\\Stable-Diffusion\",
После этого можно нажать Refresh All Files, и модель появится в списке.

Для просмотра ссылки необходимо нажать Вход или Регистрация

Почти все модели в большей или меньшей степени основаны на самой первой модели, которую выпустила компания Stability AI. Они дополнялись новыми данными, полученными в результате обучения; авторы ремиксов добавляли улучшения и тонкие настройки. В результате разные модели могут заметно различаться между собой как по общей композиции изображения, так и по качеству картинки.

Ниже — небольшое сравнение моделей по запросу «photorealistic, cinematic, close view of a redhead woman in 19th century clothing of a woman mechanic fixing a steampunk car» с подключенным кастомным стилем Cinematic: «cinematic angle, cinematic lighting, highly detailed, amazing, finely detailed, more realistic, Ultra HD 32k, cinematic, 4k, footage from an epic movie, clear focus, detailed character design, ultra-high resolution, perfectly composed, UHD».

Вот так отработала модель Bastard V1:

Для просмотра ссылки необходимо нажать Вход или Регистрация

А в галерее ниже — результаты других моделей:

Для просмотра ссылки необходимо нажать Вход или Регистрация	Для просмотра ссылки необходимо нажать Вход или Регистрация	Для просмотра ссылки необходимо нажать Вход или Регистрация
Модели: SoftFantasy Dark Edition, CineVisionXL By Socalguitarist Easily, realisticStockPhoto v10

Для просмотра ссылки необходимо нажать Вход или Регистрация	Для просмотра ссылки необходимо нажать Вход или Регистрация	Для просмотра ссылки необходимо нажать Вход или Регистрация
Модели: RaffaelloXL Real People 10, Yggdrasil V2 и mjLnir SDXL Lightning v10

Обрати внимание в первую очередь на разницу в композиции. «Темная» Dark Edition разительно отличается от «голливудской» CineVisionXL; фотореалистичные модели пытаются в реализм, модель Yggdrasil V2 воссоздает атмосферу, используя оригинальную цветовую палитру, а модель mjLnirSDXLLightning_v10, хоть и напутала с пальцами, сумела сгенерировать картинку всего за восемь итераций (остальным моделям для этого потребовалось сорок).

Где скачать модели

Базовых моделей разных типов и поколений множество, и далеко не все поддерживаются в Fooocus. В качестве основной можешь взять одну из моделей SDXL 1.0,

Для просмотра ссылки необходимо нажать Вход или Регистрация

их можно с сайта Civitai. В правом верхнем углу сайта будет значок «фильтр»; выбери настройки, как на скриншоте.

Для просмотра ссылки необходимо нажать Вход или Регистрация

С такими настройками отображаются все модели независимо от возраста (All Time), только базовые модели (Checkpoint), только SDXL 1.0. Последняя настройка (All) включает отображение как обученных моделей (Trained), так и ремиксов (Merge).

Модели бывают двух типов: обученные (Trained) и ремиксы (Merged). Обученными обычно считают модели, автор которых натренировал (обучил) модель на том или ином наборе изображений. Впрочем, довольно часто обученными моделями называют ремиксы, для которых разработчик провел дополнительное обучение на относительно небольшом наборе данных.

С ремиксами проще: их авторы объединяют несколько разных моделей и лор с заданными весовыми коэффициентами. Самый простой пример — добавление «фотореалистичной» лоры в одну из моделей, что дополнительно увеличит весовые коэффициенты именно фотографий.

В зависимости от вкуса, чувства меры и мастерства разработчиков получаются более или менее интересные ремиксы. Моделей — тысячи, перепробовать все невозможно даже теоретически. Ты можешь просто отсортировать их по популярности, а можешь воспользоваться моими рекомендациями.

УНИВЕРСАЛЬНЫЕ МОДЕЛИ, ПРИГОДНЫЕ ДЛЯ РЕАЛИЗМА

Для просмотра ссылки необходимо нажать Вход или Регистрация

— прекрасно сбалансированная модель, которая умеет всё. Многие авторы ремиксов используют эту модель в качестве основы.

Для просмотра ссылки необходимо нажать Вход или Регистрация

с сайта Tensor.Art — одна из лучших протестированных мной моделей. По качеству она близка к Midjourney V6. Эта модель — результат совместной работы двух разработчиков: Freek22 (автор нескольких моделей семейства Norsk) и Afroman4peace (автор многочисленных моделей, в том числе отличных моделей Hephaistos и Colossus XL).

Для просмотра ссылки необходимо нажать Вход или Регистрация

, она же Reality Check XL, — обученная модель с уклоном в реализм. Способна выдавать уникальные результаты, непохожие на работу других моделей.

Для просмотра ссылки необходимо нажать Вход или Регистрация

с сайта Tensor.Art — мощная модель, в состав которой вошли как другие модели того же автора (в том числе обученные), так и некоторые сторонние. Рекомендую обратить внимание и на

Для просмотра ссылки необходимо нажать Вход или Регистрация

этого автора на том же сайте или на сайте Civitai.

Для просмотра ссылки необходимо нажать Вход или Регистрация

и, чтобы два раза не вставать, «фотографическая»

Для просмотра ссылки необходимо нажать Вход или Регистрация

, «3D-мультяшная»

Для просмотра ссылки необходимо нажать Вход или Регистрация

и «ночная»

Для просмотра ссылки необходимо нажать Вход или Регистрация

того же автора — сбалансированные модели, отвечающие заявленным целям. Например, в «киношной» CineVisionXL даже самые простые запросы выполняются так, как будто кадр был поставлен голливудским режиссером — с соответствующим освещением и динамикой.

Для просмотра ссылки необходимо нажать Вход или Регистрация

— сбалансированный ремикс с уклоном в турбореализм (не путать с реалистичным реализмом). Кстати, рекомендую обратить внимание и на другие модели того же автора.

Для просмотра ссылки необходимо нажать Вход или Регистрация

— несмотря на то что это ремикс, мне не удалось повторить результаты работы этой модели ни в одной другой. Характерные черты модели — детализированные лица и текстуры, высокий микроконтраст.

Для просмотра ссылки необходимо нажать Вход или Регистрация

— тебе уже дали первую версию этой модели в составе Fooocus, но с тех пор вышла вторая. Это отличная обученная реалистичная модель. Разницу между первой и второй версиями можно увидеть на примерах ниже.

Для просмотра ссылки необходимо нажать Вход или Регистрация

— модель, обученная на фотографиях лиц. Способна выдавать неизбитые портреты, непохожие на сгенерированных фотомоделей. Но этим дело не ограничивается: в модели — полный набор художественных средств.

Есть много других достойных внимания моделей; перечислить все невозможно, да я и не ставлю такой цели. Есть cherryPickerXL, Hephaistos NextGen, Luna Mia, SoftFantasy Dark Edition и много других интересных моделей.

Продолжение далее...

Для просмотра ссылки необходимо нажать Вход или Регистрация

Поиск

Stable Diffusion XL. Выбираем модели, рефайнеры, лоры и стили

BOOX

Стаж на ФС с 2012 года

Последние новости генеративного ИИ

РАЗЛИЧИЯ МЕЖДУ ПРЕСЕТАМИ

INFO

БАЗОВЫЕ МОДЕЛИ

Где скачать модели

УНИВЕРСАЛЬНЫЕ МОДЕЛИ, ПРИГОДНЫЕ ДЛЯ РЕАЛИЗМА

Похожие темы

Stable Diffusion XL. Выбираем модели, рефайнеры, лоры и стили

BOOX

Стаж на ФС с 2012 года

Последние новости генеративного ИИ​

РАЗЛИЧИЯ МЕЖДУ ПРЕСЕТАМИ​

INFO​

БАЗОВЫЕ МОДЕЛИ​

Где скачать модели​

УНИВЕРСАЛЬНЫЕ МОДЕЛИ, ПРИГОДНЫЕ ДЛЯ РЕАЛИЗМА​

Похожие темы

Последние новости генеративного ИИ

РАЗЛИЧИЯ МЕЖДУ ПРЕСЕТАМИ

INFO

БАЗОВЫЕ МОДЕЛИ

Где скачать модели

УНИВЕРСАЛЬНЫЕ МОДЕЛИ, ПРИГОДНЫЕ ДЛЯ РЕАЛИЗМА