Обучение генеративной нейросети под стиль Якуб Розальски на Continuum

Идея проекта

Якуб Розальски — выдающийся художник, чье творчество отличается уникальным сочетанием исторических событий, фольклорных элементов и стимпанковской эстетики. Его картины захватывают воображение, создавая неповторимую атмосферу, где прошлое встречается с альтернативным будущим.

Я выбрал стиль Якуба Розальски в качестве источника вдохновения для генерации изображений, поскольку меня глубоко привлекают его работы. Его умение сочетать реализм и фантазию, детализированность и общую эпичность полотен, крайне примечательна и мне очень интересно, как бы выглядели более фэнтезийные мотивы, если бы они были воплощены в его неповторимой манере.

Целью было создать модель, способную сгенерировать изображения, для иллюстрирования и визуального отображения особенных личностей и моментов в ходе ролевых игровых взаимодействий (в частности в настольно ролевой игре Dungeons and Dragons).

Применение генеративной модели

Для создания проекта я использовал среду Google Colab. Внутри ноутбука для обучения модели и генерации изображений использовались такие инструменты как LoRA, Stabble Diffusion XL и hugginface.

Работа с нейросетью

Для обучения модели я собрал набор изображений состоящий из 164 изображений из творчества Розальски.

примеры из датасета

Исходный размер 1914x940

работа с кодом

Исходный размер 1581x811

работа с кодом

Первые генерации

В процессе создания фэнтезийных образов я предпринял несколько этапов экспериментов, пробуя различные запросы к генеративной модели.

Примеры использованных промтов:

«photo collage in MOOMIN style» — базовая установка, погружающая в нужный стиль

«art in Rozalski style, a knight in red armor in the green field» — попытка создать базовое фентезийное изображения рыцаря в сияющих доспехах

«art in Rozalski style, a flying dragon under the forest» — фокус на драконе, как символе жанра

«art in Rozalski style, an army of orc in the forest» — попытки взглянуть на то как будут изображены крупные группы существ

генерации передающие атмосферу низкого фэнтези

генерации с фокусом на персонаже

Снег часто встречается в работах Розальски, поэтому я попробовал воссоздать снежные локации при помощи генеративной модели.

снежные пейзажи

лесные пейзажи

Заключение

Получившаяся модель достаточно неплохо воспроизводит стиль художника, а при должном количестве шагов (от 50) может даже детально изображать человеческие лица. Однако модель имеет ряд недостатков в понимании структуры некоторых элементов, иногда копья отделяются от древка, а башни имеют крышу, но не имеют основания. Модель может генерировать работы, достаточные для небольшого иллюстрирования событий или историй, но недостаточных для полного копирования работ Розальски.

Инструменты

Google Colab — рабочее пространство

Stable Diffusion XL — генеративная модель

DreamBooth + LoRA — обучение на собственных данных

Hugging Face — получение токена и загрузка модели

ChatGPT / GPT-4 / DeepSeek — генерация текстов и структуры

Блокнот с кодом

Модель на Hugging

Диск с датасетом