Stable Diffusion XL. Выбираем модели, рефайнеры, лоры и стили

BOOX

Стаж на ФС с 2012 года
Команда форума
Служба безопасности
Private Club
Регистрация
23/1/18
Сообщения
25.318
Репутация
11.175
Реакции
59.500
RUB
50
Если ты соберешься запускать на своем компьютере генеративные модели для создания изображений, то перед тобой встанет серьезная проблема выбора: их множество, и все они дают похожие, но все же немного разные результаты.


В этой статье поговорим об этих отличиях, а также о рефайнерах, стилях, лорах и особенностях промптинга.
Мы продолжим изучать возможности генеративной нейросети Stable Diffusion XL, о которой я уже писал. В мы освоили установку нейросети на компьютер, сгенерировали несколько фотореалистичных изображений, познакомились с общей бедой современных нейросетей — пальцами руки — и попробовали их исправить.

В качестве инструмента по‑прежнему будем использовать Fooocus. В то же время эта статья — последняя, где я его использую. В следующий раз перейдем на более продвинутую сборку — AUTOMATIC1111.

i


Последние новости генеративного ИИ​

Генеративные нейросети развиваются со скоростью мысли. Не успела выйти предыдущая статья, как новости посыпались словно из рога изобилия.
Раз — и разработчики Fooocus выпускают , свой собственный оптимизированный форк популярнейшего AUTOMATIC1111. Новая сборка продолжает традиции Fooocus — она работает «из коробки» и не требует доработки напильником, как оригинальный проект.

Два — и Stability AI, разработчики Stable Diffusion, выпускают предварительную сборку нового поколения нейросети, , погонять которую можно прямо в онлайне, но можно и установить на свой компьютер по .

Три — и компания ByteDance, разработавшая TikTok, выпускает проект , который позволяет генерировать изображения за доли секунды — быстрее, чем SDXL Turbo, и с более высоким качеством. К примеру, картинка ниже была создана за восемь секунд в разрешении 2024 на 2024; в стандартном для SDXL разрешении 1024 на 1024 изображения создаются менее чем за секунду. Базовую модель можно на сайте Hugging Face, но лучше скачать модель с Civitai и использовать ее локально (только внимательно ознакомься с инструкциями — это важно).



И уже когда я писал эту статью, пришла совершенно неожиданная новость: Stability AI выпустила , пока только в виде превью для разработчиков.
В новой версии Stable Diffusion (кстати, не совсем понятно, как она соотносится с релизом Stable Cascade) обещают много хорошего, при этом почти дословно идут по пунктам из пресс‑релиза Midjourney V6. впечатляют, но на то они и демки.

РАЗЛИЧИЯ МЕЖДУ ПРЕСЕТАМИ

В прошлый раз мы генерировали фотореалистичные изображения, запустив Fooocus командой run_realistic.bat, однако фотографиями Stable Diffusion не ограничивается. Запустив нейросеть командой run.bat, мы автоматически переключимся на другие, универсальные настройки. Из строки негативных ключевиков пропадут термины, запрещающие художественные стили, а из списка подключенных «лор» исчезнет та, которая отвечает за фотореалистичность.

INFO​

LoRA (Low-Rank Adaptation) — компактные модели, дополняющие основные.

При запуске какого‑либо файла Fooocus использует настройки из соответствующего пресета (они лежат в папке Fooocus\presets). По этой причине стоит запускать файлы корректной командой в зависимости от типа изображений, которые ты собираешься генерировать.

Раз уж мы заговорили о пресетах, то разница между фотореалистичными (run_realistic.bat) и основными (run.bat) настройками такова.

В фотореалистичном пресете базовая модель — realisticStockPhoto_v10, лора — SDXL_FILM_PHOTOGRAPHY_STYLE_BetaV0.4, негативные ключевые слова — unrealistic, saturated, high contrast, big nose, painting, drawing, sketch, cartoon, anime, manga, render, CG, 3d, watermark, signature, label, активные по умолчанию стили — динамический стиль Fooocus V2, а также Fooocus Photograph и Fooocus Negative.

В основном же пресете, который запускается командой run.bat, настройки другие. В качестве базовой модели авторы выбрали juggernautXL_version6Rundiffusion (хорошая универсальная модель), лора — sd_xl_offset_example-lora_1.0 (ее предназначение с дефолтной настройкой — увеличивать контраст; на высоких весовых коэффициентах может помочь генерировать изображения с глубоким черным цветом). Никаких негативных ключевых слов на сей раз нет, а в качестве стилей выставлен набор из уже знакомого динамического улучшайзера Fooocus V2 и новых стилей Fooocus Enhance и Fooocus Sharp.

Значение здесь имеет буквально всё, и начнем мы с главного — выбора базовой модели.

БАЗОВЫЕ МОДЕЛИ

Базовая модель, или чекпоинт, — это генеративная модель, используемая для преобразования текста в изображения алгоритмами Stable Diffusion. В зависимости от выбора модели на один и тот же запрос с одним и тем же сидом и прочими настройками ты можешь получить как похожие изображения, выполненные в разных стилях, так и совершенно разные картинки.

В качестве основных Fooocus поддерживает только модели SDXL 1.0, а вот в качестве рефайнера (Refiner) может использовать как их, так и старые модели от SD 1.5. О рефайнерах мы поговорим чуть ниже; пока что ты можешь скачать одну или несколько моделей в дополнение к juggernautXL_version6Rundiffusion, которую Fooocus скачает автоматически при запуске run.exe. Сохранять чекпоинты нужно в папку Fooocus\models\checkpoints или в любую другую, если ты укажешь к ней путь в файле Fooocus\config.txt. Например, так:

"path_checkpoints": "d:\\Models\\Stable-Diffusion\",
После этого можно нажать Refresh All Files, и модель появится в списке.



Почти все модели в большей или меньшей степени основаны на самой первой модели, которую выпустила компания Stability AI. Они дополнялись новыми данными, полученными в результате обучения; авторы ремиксов добавляли улучшения и тонкие настройки. В результате разные модели могут заметно различаться между собой как по общей композиции изображения, так и по качеству картинки.

Ниже — небольшое сравнение моделей по запросу «photorealistic, cinematic, close view of a redhead woman in 19th century clothing of a woman mechanic fixing a steampunk car» с подключенным кастомным стилем Cinematic: «cinematic angle, cinematic lighting, highly detailed, amazing, finely detailed, more realistic, Ultra HD 32k, cinematic, 4k, footage from an epic movie, clear focus, detailed character design, ultra-high resolution, perfectly composed, UHD».

Вот так отработала модель Bastard V1:



А в галерее ниже — результаты других моделей:

Модели: SoftFantasy Dark Edition, CineVisionXL By Socalguitarist Easily, realisticStockPhoto v10
Модели: RaffaelloXL Real People 10, Yggdrasil V2 и mjLnir SDXL Lightning v10

Обрати внимание в первую очередь на разницу в композиции. «Темная» Dark Edition разительно отличается от «голливудской» CineVisionXL; фотореалистичные модели пытаются в реализм, модель Yggdrasil V2 воссоздает атмосферу, используя оригинальную цветовую палитру, а модель mjLnirSDXLLightning_v10, хоть и напутала с пальцами, сумела сгенерировать картинку всего за восемь итераций (остальным моделям для этого потребовалось сорок).

Где скачать модели​

Базовых моделей разных типов и поколений множество, и далеко не все поддерживаются в Fooocus. В качестве основной можешь взять одну из моделей SDXL 1.0, их можно с сайта Civitai. В правом верхнем углу сайта будет значок «фильтр»; выбери настройки, как на скриншоте.



С такими настройками отображаются все модели независимо от возраста (All Time), только базовые модели (Checkpoint), только SDXL 1.0. Последняя настройка (All) включает отображение как обученных моделей (Trained), так и ремиксов (Merge).

Модели бывают двух типов: обученные (Trained) и ремиксы (Merged). Обученными обычно считают модели, автор которых натренировал (обучил) модель на том или ином наборе изображений. Впрочем, довольно часто обученными моделями называют ремиксы, для которых разработчик провел дополнительное обучение на относительно небольшом наборе данных.

С ремиксами проще: их авторы объединяют несколько разных моделей и лор с заданными весовыми коэффициентами. Самый простой пример — добавление «фотореалистичной» лоры в одну из моделей, что дополнительно увеличит весовые коэффициенты именно фотографий.

В зависимости от вкуса, чувства меры и мастерства разработчиков получаются более или менее интересные ремиксы. Моделей — тысячи, перепробовать все невозможно даже теоретически. Ты можешь просто отсортировать их по популярности, а можешь воспользоваться моими рекомендациями.

УНИВЕРСАЛЬНЫЕ МОДЕЛИ, ПРИГОДНЫЕ ДЛЯ РЕАЛИЗМА

— прекрасно сбалансированная модель, которая умеет всё. Многие авторы ремиксов используют эту модель в качестве основы.



с сайта Tensor.Art — одна из лучших протестированных мной моделей. По качеству она близка к Midjourney V6. Эта модель — результат совместной работы двух разработчиков: Freek22 (автор нескольких моделей семейства Norsk) и Afroman4peace (автор многочисленных моделей, в том числе отличных моделей Hephaistos и Colossus XL).



, она же Reality Check XL, — обученная модель с уклоном в реализм. Способна выдавать уникальные результаты, непохожие на работу других моделей.



с сайта Tensor.Art — мощная модель, в состав которой вошли как другие модели того же автора (в том числе обученные), так и некоторые сторонние. Рекомендую обратить внимание и на этого автора на том же сайте или на сайте Civitai.



и, чтобы два раза не вставать, «фотографическая» , «3D-мультяшная» и «ночная» того же автора — сбалансированные модели, отвечающие заявленным целям. Например, в «киношной» CineVisionXL даже самые простые запросы выполняются так, как будто кадр был поставлен голливудским режиссером — с соответствующим освещением и динамикой.



— сбалансированный ремикс с уклоном в турбореализм (не путать с реалистичным реализмом). Кстати, рекомендую обратить внимание и на другие модели того же автора.



— несмотря на то что это ремикс, мне не удалось повторить результаты работы этой модели ни в одной другой. Характерные черты модели — детализированные лица и текстуры, высокий микроконтраст.



— тебе уже дали первую версию этой модели в составе Fooocus, но с тех пор вышла вторая. Это отличная обученная реалистичная модель. Разницу между первой и второй версиями можно увидеть на примерах ниже.









— модель, обученная на фотографиях лиц. Способна выдавать неизбитые портреты, непохожие на сгенерированных фотомоделей. Но этим дело не ограничивается: в модели — полный набор художественных средств.

Есть много других достойных внимания моделей; перечислить все невозможно, да я и не ставлю такой цели. Есть cherryPickerXL, Hephaistos NextGen, Luna Mia, SoftFantasy Dark Edition и много других интересных моделей.


Продолжение далее...


 
  • Теги
    stable diffusion webui forge генеративный ии
  • Сверху Снизу