Original size 894x1250

Обучение Stable Diffusion в стилистике Феликса Колгрейва

PROTECT STATUS: not protected

Цель проекта — дообучение генеративной нейросети Stable Diffusion XL на базе иллюстраций художника и аниматора Феликса Колгрейва, с применением метода LoRA (Low-Rank Adaptation). Итогом обучения должна стать модель, способная генерировать изображения по текстовому описанию в узнаваемом, выразительном и уникальном стиле Колгрейва.

Иллюстрации Колгрейва отличаются высокой степенью стилизации, нестандартным дизайном персонажей и уникальной визуальной пластикой. В его работах можно уловить узнаваемые черты мышей, птиц или людей, однако эти образы зачастую радикально трансформированы, не имея прямых аналогов в реальности. Это делает задачу генерации особенно интересной — необходимо не просто «скопировать стиль», но и захватить авторскую логику трансформации образов.

Проект направлен на исследование возможностей современных генеративных моделей в контексте распознавания и воспроизведения стилистически сложных художественных концептов. Насколько точно нейросеть сможет «понять» и воспроизвести визуальный язык художника? Сумеет ли она интерпретировать и переосмыслить формы, как это делает человек? Иными словами, возможно ли научить ИИ не только имитировать стиль, но и видеть мир глазами художника?

Иллюстрации Феликса Колгрейва, 2021-2022

Датасет

0

Иллюстрации Феликса Колгрейва и фрагменты из анимационного фильма «Throat notes»

Для работы над проектом был сформирован датасет из 21 изображения, включающий иллюстрации Феликса Колгрейва, созданные в период с 2019 по 2023 год, а также кадры из его анимационного фильма «Throat Notes». Такой выбор обусловлен тем, что, Колгрейв сохраняет характерные черты в своих иллюстративных работах, однако прибегает к различным и не повторяющимся изобразительным решениям в своих мультфильмах. При этом «Throat Notes» наиболее близок к его узнаваемому художественному стилю.

Именно этот датасет был использован для начального этапа обучения нейросети. Позднее, с целью более глубокого анализа потенциала машинного обучения, был создан второй датасет, включающий дополнительные 12 изображений из различных мультфильмов автора. Это позволило расширить охват и попытаться выявить повторяющиеся формы и образы, которые Феликс Колгрейв использует в качестве художественного лейтмотива в своём творчестве.

Фрагменты из анимационного фильма «NYLONS», Феликс Колгрейв, 2021

Во второй датасет вошли фрагменты из таких фильмов, как: «NYLONS», «Double King», «Donks» и музыкального клипа «Don’t hurt me»

Результирующая серия изображений

Сгенерированные изображения: ворона с бантом и красная птица

Первые эксперименты с использованием обученной модели дали положительный результат: благодаря наличию в исходном датасете нескольких изображений птиц, выполненных в стиле выбранного художника, Stable Diffusion смогла точно воспроизвести их характерные черты. Кроме того, нейросети удалось успешно передать особенности работы с деталями и линейной графикой, характерные для творческого почерка Феликса Колгрейва.

Сгенерированные изображения второй эпохи: Красная птица

Тем не менее, вторая эпоха обучения не дала ожидаемых результатов. Несмотря на то, что в некоторых случаях качество графического исполнения улучшилось, начали проявляться ошибки генерации. Так, например, при попытке создать изображение по запросу «Cartoon red bird» нейросеть сгенерировала птицу с лицом персонажа из игры «Angry Birds».

Возможно, причиной этого стало смешение различных визуальных стилей: нейросеть столкнулась с трудностями в объединении разнородных художественных подходов, что привело к некорректной интерпретации образов.

Original size 1438x1064

Сверху: пейзажи первой эпохи обучения, снизу: пейзажи второй эпохи обучения

С другой стороны, поскольку в первоначальном датасете отсутствовали изображения пейзажей и основной акцент был сделан на персонажах (в отличие от второго датасета), вторая эпоха обучения продемонстрировала лучшие результаты в передаче пространственной композиции и создании пейзажей. Хотя ошибки генерации всё ещё встречаются, их значительно меньше по сравнению с первым этапом, а визуальный подход к пейзажам стал ближе к тому, что можно было бы ожидать от работ Феликса Колгрейва.

Original size 1616x512

Изображения первой эпохи обучения: человек с бантом, скелет в короне и серая мышь

Анализ итоговой серии изображений показывает, что исходная модель наиболее точно воспроизвела особенности линейной графики, проработку складок на телах персонажей, а также характерное использование цвета и света, присущее стилю Феликса Колгрейва.

Несмотря на успешную передачу визуальных приёмов художника, обученной модели не удалось корректно интерпретировать образы, что привело к многочисленным ошибкам генерации.

Процесс обучения

Original size 1300x540

В ходе работы над проектом использовалась облачная среда Google Colab. Через файловую систему в код был загружен исходный датасет, после чего с помощью модели распознавания изображений BLIP для каждой картинки были автоматически сгенерированы текстовые описания.

Original size 1300x540

Создание пар изображение-описание и токенизация

Этот участок кода выполняет подготовку датасета для обучения нейросети — создаёт JSONL-файл с подписями к изображениям.

К полученным ранее подписям добавляется стилистический префикс, указывающий на стиль Феликса Колгрейва. Далее для каждого изображения формируется JSON-объект с именем файла и соответствующим описанием, которые последовательно записываются в файл metadata.jsonl, предназначенный для дальнейшего использования в процессе обучения нейросети.

Настройки процесса обучения для первой и второй эпох

Наконец, осуществляется обучение модели на исходном датасете. Было проведено два этапа: первый — с ограниченным набором изображений и базовыми параметрами, второй — с расширенным датасетом и улучшенными настройками, влияющими на качество визуализации и число обучающих итераций.

По завершении тренировки полученные веса были загружены на платформу Hugging Face, откуда они могут быть использованы для генерации собственных изображений.

Исходный код

Генеративные нейросети

  • Stable Diffusion XL base 1.0 — для генерации изображений
  • BLIP — для генерации текстовых описаний к изображениям
  • Upscayl — для улучшения качества изображений
  • ChatGPT — для грамматической проверки текста и исправления кода
Обучение Stable Diffusion в стилистике Феликса Колгрейва