Заменят ли нас нейросети — этот вопрос в последнее время стал волновать дизайнеров, художников, авторов текста и фотографов. Самые умные и быстрые уже вовсю изучают нейросети и встраивают в свою работу. Сегодня посмотрим, как работает бесплатная нейросеть Stable Diffusion и на что она способна в разных сборках с использованием разных моделей.
Лучшие сборки Stable Diffusion
Сборка AUTOMATIC1111
Easy Diffusion
DiffusionBee
Модели для Stable Diffusion
Модель Stable Diffusion от создателей нейросети Stable Diffusion
Модель openjourney-v4
Модель Deliberate v2
MoDi (Modern Disney)
Модель в аниме-стилистике Anything
Фотореалистичная модель readiffRealistic
Модель Inkpunk Diffusion v2
Где взять и как установить модели для Stable Diffusion
Лучшие сборки Stable Diffusion
У Stable Diffusion существует много сборок. Что такое сборка, понять человеку, непосвящённому в программирование, сложно. Сборка включает в себя ядро нейросети, необходимые для работы программы и библиотеки и интерфейс, при помощи которого пользователю удобно взаимодействовать с нейросетью. В контексте этого материала (если вы ещё не программист со стажем) «установить сборку» можно читать, как «установить программу».
Все сборки можно условно разделить на две группы. Одни просты в установке, их можно скачать, поставить и запустить практически в один клик. Но, как правило, у таких простых вариантов возможности ограничены (например, на них не всегда можно установить нужные расширения и скрипты). Эти сборки хорошо подходят для того, чтобы попробовать нейросеть и при необходимости установить более мощную сборку.
Другие сборки более требовательны в плане установки: там нужно работать с командной строкой и вручную выставлять некоторые настройки. Зато и возможности у них шире.
Сборка AUTOMATIC1111
Эталонная сборка, в которой работает большинство пользователей Stable Diffusion. Если посмотреть обучающие ролики и статьи, то практически все они будут рассказывать о работе именно в ней.
AUTOMATIC1111 позволяет использовать множество скриптов и расширений, дающих дополнительные возможности при генерации и делающие работу более удобной. Например, Control Net для копирования композиции, Deforum для работы с видео или Image Browser для удобного просмотра сгенерированных изображений.
Скачать эту сборку можно на Гитхабе, а полную инструкцию по установке найти вот здесь. Установка не самая простая: например, для начала придётся отдельно скачать и установить интерпретатор языка Python. Чтобы облегчить жизнь начинающим пользователям, некоторые программисты создают на основе AUTOMATIC1111 свои сборки с более простой установкой.
Тем, кто работает на Windows, рекомендуем сборку Portable Stable Diffusion. Интерфейс и возможности у неё те же, что и у исходной сборки AUTOMATIC1111, но установить её гораздо проще. Достаточно скачать с Гитхаба архив, распаковать его (желательно в корень диска, чтобы не было длинных путей и русских символов) и запустить файл webui-user-first-run.cmd — все необходимые для работы файлы установятся автоматически.
Пользователям Linux и MacOS придётся установить оригинальный AUTOMATIC1111, который требует чуть больше действий при установке. В Linux придётся запустить терминал, и с его помощью устанавливать Python и саму сборку Stable Diffusion.
В MacOS всё ещё интереснее: там сборку тоже придётся устаналивать через терминал, но её создатели не обещают, что всё заработает. Сама инструкция довольно длинная, найти её можно вот здесь.
Easy Diffusion
Очень удобная в работе сборка с простой установкой, существует для Windows, Linux и Mac OS. Для установки в Windows используется обычный установщик с расширением .EXE, а в Linux и Mac OS нужно распаковать ZIP-архив в нужную папку (желательно без русских символов в названии) и запустить скрипт ./start.sh.
Скачать установщик проще всего с официального сайта.
В разделе img2img (находится под полем Negative Prompt) можно загрузить изображение для работы с ним (кнопка Browse) или нарисовать собственный эскиз — при нажатии кнопки Draw откроется простейший редактор, напоминающий Paint.
Возможностей для установки расширений в Easy Diffusion нет, зато есть огромное количество готовых стилей, которые можно включить одним щелчком мыши. И, что очень удобно, у каждого из них есть превью, по которому можно понять влияние стиля на генерируемую картинку.
Ещё один плюс этой сборки — задания для нейросети можно ставить в очередь. Если в AUTOMATIC1111 и сборках на её основе нужно дождаться конца генерации, чтобы кнопка Generate снова стала активной, то тут всё иначе. Пока нейросеть генерирует картинки, можно поменять описание, сменить настройки и даже выбрать другую модель генерации.
После этого останется нажать кнопку, и задача встанет в очередь. Такое решение подойдёт владельцам не очень мощных компьютеров с видеокартами уровня NVidia GeForce GTX 1050Ti или GTX 1060. Stable Diffusion на них запустить можно, но работать он будет не очень быстро: генерация картинки 512х512 пикселей может занять на нём минуту-две. Так что, если нужно создать много разных изображений, можно поставить их в очередь и пойти пить чай, пока нейросеть работает.
DiffusionBee
Сборка Diffusion Bee предназначена только для компьютеров на Mac OS. Процессор при этом может быть и новый Apple M1 или M2 (как в свежих версиях Macbook), так и более старый от Intel — главное, при загрузке скачать правильную версию. Загрузить приложение можно с официального сайта. По ссылке находится стандартный для MacOS файл .DMG, который устанавливается, как любая другая обычная программа. При первом запуске DiffusionBee сам скачает необходимые для работы файлы.
Сборка позволяет работать как текстовыми запросами, так и с изображениями. Настроек не очень много, расширений нет — для тех, кому нужен максимальный контроль над нейросетью, эта сборка вряд ли подойдёт. Ну а новичку, который хочет попробовать нейросеть и не возиться со сложной установкой и тонкими настройками, эта сборка точно понравится.
Модели для Stable Diffusion
Когда со сборкой определились, нужно выбрать модель. Модель — эта та часть нейросети, которую тренируют на конкретных изображениях и благодаря которым нейросеть знает, что ей нужно рисовать, когда её просят сгенерировать человека, котика, машину или пиццу.
При этом то, как будет выглядеть результат, зависит от тех изображений, на которых тренировали модель. Если модель тренировали на мультфильмах, то и рисовать она будет в мультяшном стиле, если на фотографиях — то от неё можно ожидать фотореалистичных изображений. При этом встречаются как универсальные модели, способные нарисовать фотореалистичного человека, логотип для автосервиса или пейзаж в стиле Ван Гога, так и модели, специализирующиеся на чём-то одном (например, умеющие рисовать только девушек в аниме-стилистике и больше ничего).
Давайте посмотрим на несколько популярных моделей и предложим им сгенерировать один и тот же набор картинок, чтобы посмотреть, на что они способны и с чем справляются лучше, а с чем хуже. Рисовать будем портрет человека, набор суши, красивый пейзаж и гигантского робота.
Модель Stable Diffusion от создателей нейросети Stable Diffusion
Есть несколько версий модели Stable Diffusion. Это универсальные модели от создателей нейросети. Их используют и для генерации изображений, и для тренировки других моделей на их основе. На данный момент актуальны модели SD 1.4, SD 1.5 и более свежая SD 2.1. И вроде бы свежая модель должна рисовать лучше, но на деле всё не так просто: после скандала с авторскими правами создатели тренировали модель 2.1 на гораздо меньшем количестве изображений, и в итоге рисует она хуже, чем версии 1.4 и 1.5.
Модель Stable Diffusion 1.4 справилась неплохо, хоть и нарисовала роллы вместо суши.
А вот у свежей Stable Diffusion 2.1 всё гораздо хуже: человека она нарисовала только с четвёртой попытки, с остальными картинками тоже справилась не очень.
Модель SD 1.5 можно скачать вот здесь, а свежую SD 2.1 — вот тут.
Модель openjourney-v4
Модель тренировали на изображениях, сгенерированных другой нейросетью (и, как можно догадаться из названия, это была Midjourney четвёртой версии). По мнению автора, в результате Stable Diffusion должен выдавать картинки, похожие на творчество Midjourney.
К сожалению, на практике это не так — еду оригинальная Midjourney точно рисует лучше, можете посмотреть вот в этой статье. Но если вы всё же хотите скачать и попробовать модель, вот ссылка.
Модель Deliberate v2
Универсальная, хорошая, довольно реалистичная модель, созданная на основе Stable Diffusion 1.5. Хорошо справляется с большинством задач, любит довольно подробные запросы. Одна из тех, которые точно стоит установить и попробовать.
Скачать Deliberate можно вот здесь.
MoDi (Modern Disney)
Модель тренировали на диснеевских мультфильмах, и она умеет создавать картинки в этом стиле. Сложно сказать, где и для чего эти картинки можно использовать, но установить и поиграться можно.
Скачать модель можно вот отсюда.
Модель в аниме-стилистике Anything
Модель специализируется на рисовании картинок в стиле аниме, и лучше всего рисует именно девушек в этом стиле. Причём анимешные девушки могут появиться, даже если в запросе нет никаких людей. Есть несколько версий этой модели, и результат их работы немного отличается.
Anything V3 рисует в более «классическом» стиле, с очень схематичными чертами лица и упрощённой светотенью:
А вот Anything V5 иногда делает людей более реалистичными, полностью рисуя им носы и добавляя объёма тенями и бликами:
Скачать модель для рисования аниме можно по этой ссылке.
Фотореалистичная модель readiffRealistic
Эта модель, по отзывам, очень хорошо справляется с рисованием еды. Так что, если вам нужно создавать контент для кафе, а на фотосъёмку не хватает времени и денег, можете попробовать нейросеть Stable Diffusion с этой моделью. Она действительно неплохо справилась и с портретом, и с «фотографией» набора суши:
Единственное, о чём стоит помнить, если хочется использовать нейросеть вместо фуд-фотографа, это мощность компьютера. Чтобы генерировать изображения большого размера и делать это быстро, нужна мощная видеокарта с большим объёмом памяти. NVidia RTX 4090 подойдёт идеально, RTX 3080Ti тоже сгодится для комфортной работы.
Модель Inkpunk Diffusion v2
Модель предназначена для генерации стилизованных картинок, похожих на раскрашенные рисунки пером и тушью. Хорошо подойдёт для создания иллюстраций. К минусам модели можно отнести то, что она умеет рисовать не всё, что попросят. Люди, роботы, пейзажи и городские виды получаются очень красиво, а вот с изображениями животных и еды могут возникнуть проблемы.
Найти эту модель можно на странице автора.
Где взять и как установить модели для Stable Diffusion
Проще всего найти модели на сайтах playgroundai.com и civitai.com. На главной странице у них находится галерея изображений, сгенерированных в Stable Diffusion. При желании их можно отсортировать по теме — люди, животные, машины, еда, пейзажи и т. д.
А если нажать на понравившуюся картинку, откроется новая страница. На ней можно посмотреть, в какой именно модели и с каким описанием она была сгенерирована. Будет там и ссылка, по которой можно скачать эту модель.
Устанавливаются новые модели довольно просто. В большинстве сборок достаточно зайти в папку с нейросетью, и найти в ней папку models, а в ней — ещё одну, под названием Stable Diffusion. Именно сюда и надо положить скачанные модели, и они будут доступны после перезапуска нейросети.
Весят модели для Stable Diffusion несколько гигабайт, так что если захочется накачать побольше разных вариантов, убедитесь, что на диске хватает места.