Original size 894x1250

Обучение Stable Diffusion в стилистике Феликса Колгрейва

Цель проекта — дообучение генеративной нейросети Stable Diffusion XL на базе иллюстраций художника и аниматора Феликса Колгрейва, с применением метода LoRA (Low-Rank Adaptation). Итогом обучения должна стать модель, способная генерировать изображения по текстовому описанию в узнаваемом, выразительном и уникальном стиле Колгрейва.

Иллюстрации Колгрейва отличаются высокой степенью стилизации, нестандартным дизайном персонажей и уникальной визуальной пластикой. В его работах можно уловить узнаваемые черты мышей, птиц или людей, однако эти образы зачастую радикально трансформированы, не имея прямых аналогов в реальности. Это делает задачу генерации особенно интересной — необходимо не просто «скопировать стиль», но и захватить авторскую логику трансформации образов.

Проект направлен на исследование возможностей современных генеративных моделей в контексте распознавания и воспроизведения стилистически сложных художественных концептов. Насколько точно нейросеть сможет «понять» и воспроизвести визуальный язык художника? Сумеет ли она интерпретировать и переосмыслить формы, как это делает человек? Иными словами, возможно ли научить ИИ не только имитировать стиль, но и видеть мир глазами художника?

Иллюстрации Феликса Колгрейва, 2021-2022

Датасет

Иллюстрации Феликса Колгрейва и фрагменты из анимационного фильма «Throat notes»

Для работы над проектом был сформирован датасет из 21 изображения, включающий иллюстрации Феликса Колгрейва, созданные в период с 2019 по 2023 год, а также кадры из его анимационного фильма «Throat Notes». Такой выбор обусловлен тем, что, Колгрейв сохраняет характерные черты в своих иллюстративных работах, однако прибегает к различным и не повторяющимся изобразительным решениям в своих мультфильмах. При этом «Throat Notes» наиболее близок к его узнаваемому художественному стилю.

Именно этот датасет был использован для начального этапа обучения нейросети. Позднее, с целью более глубокого анализа потенциала машинного обучения, был создан второй датасет, включающий дополнительные 12 изображений из различных мультфильмов автора. Это позволило расширить охват и попытаться выявить повторяющиеся формы и образы, которые Феликс Колгрейв использует в качестве художественного лейтмотива в своём творчестве.

Фрагменты из анимационного фильма «NYLONS», Феликс Колгрейв, 2021

Во второй датасет вошли фрагменты из таких фильмов, как: «NYLONS», «Double King», «Donks» и музыкального клипа «Don’t hurt me»

Результирующая серия изображений

Сгенерированные изображения: ворона с бантом и красная птица

Первые эксперименты с использованием обученной модели дали положительный результат: благодаря наличию в исходном датасете нескольких изображений птиц, выполненных в стиле выбранного художника, Stable Diffusion смогла точно воспроизвести их характерные черты. Кроме того, нейросети удалось успешно передать особенности работы с деталями и линейной графикой, характерные для творческого почерка Феликса Колгрейва.

Сгенерированные изображения второй эпохи: Красная птица

Тем не менее, вторая эпоха обучения не дала ожидаемых результатов. Несмотря на то, что в некоторых случаях качество графического исполнения улучшилось, начали проявляться ошибки генерации. Так, например, при попытке создать изображение по запросу «Cartoon red bird» нейросеть сгенерировала птицу с лицом персонажа из игры «Angry Birds».

Возможно, причиной этого стало смешение различных визуальных стилей: нейросеть столкнулась с трудностями в объединении разнородных художественных подходов, что привело к некорректной интерпретации образов.

Original size 1438x1064

Сверху: пейзажи первой эпохи обучения, снизу: пейзажи второй эпохи обучения

С другой стороны, поскольку в первоначальном датасете отсутствовали изображения пейзажей и основной акцент был сделан на персонажах (в отличие от второго датасета), вторая эпоха обучения продемонстрировала лучшие результаты в передаче пространственной композиции и создании пейзажей. Хотя ошибки генерации всё ещё встречаются, их значительно меньше по сравнению с первым этапом, а визуальный подход к пейзажам стал ближе к тому, что можно было бы ожидать от работ Феликса Колгрейва.

Original size 1616x512

Изображения первой эпохи обучения: человек с бантом, скелет в короне и серая мышь

Анализ итоговой серии изображений показывает, что исходная модель наиболее точно воспроизвела особенности линейной графики, проработку складок на телах персонажей, а также характерное использование цвета и света, присущее стилю Феликса Колгрейва.

Несмотря на успешную передачу визуальных приёмов художника, обученной модели не удалось корректно интерпретировать образы, что привело к многочисленным ошибкам генерации.

Процесс обучения

Original size 1300x540

В ходе работы над проектом использовалась облачная среда Google Colab. Через файловую систему в код был загружен исходный датасет, после чего с помощью модели распознавания изображений BLIP для каждой картинки были автоматически сгенерированы текстовые описания.

Original size 1300x540

Создание пар изображение-описание и токенизация

Этот участок кода выполняет подготовку датасета для обучения нейросети — создаёт JSONL-файл с подписями к изображениям.

К полученным ранее подписям добавляется стилистический префикс, указывающий на стиль Феликса Колгрейва. Далее для каждого изображения формируется JSON-объект с именем файла и соответствующим описанием, которые последовательно записываются в файл metadata.jsonl, предназначенный для дальнейшего использования в процессе обучения нейросети.

Настройки процесса обучения для первой и второй эпох

Наконец, осуществляется обучение модели на исходном датасете. Было проведено два этапа: первый — с ограниченным набором изображений и базовыми параметрами, второй — с расширенным датасетом и улучшенными настройками, влияющими на качество визуализации и число обучающих итераций.

По завершении тренировки полученные веса были загружены на платформу Hugging Face, откуда они могут быть использованы для генерации собственных изображений.

Источники изображений

Исходный код

Google Collab

Генеративные нейросети

Stable Diffusion XL base 1.0 — для генерации изображений
BLIP — для генерации текстовых описаний к изображениям
Upscayl — для улучшения качества изображений
ChatGPT — для грамматической проверки текста и исправления кода

Обучение Stable Diffusion в стилистике Феликса Колгрейва

Veronika Vasilenko

artificial intelligence