Original size 1140x1600

Обучение генеративной сети — Posuka Demizu

PROTECT STATUS: not protected

//Концепция про художницу и ее иллюстрации

Предисловие

В очередной раз, листая ленту в социальных сетях, я наткнулась на клип японской молодой исполнительницы под псевдонимом tuki. Художественный стиль музыкального клипа показался мне невероятно знакомым, после чего я узнала иллюстратора Посука Дэмизу (出水 ぽすか). Пожалуй, я бы и не узнала, о том, что она продолжает творить, так как сама она редко что-либо публикует в сеть. Выразительные иллюстрации Посуки Демизу часто раскрывают тему человечности и круговорота пищи. Она использует радикальные искажения камеры в срчетании с эфемерно лежащим светом даже в контрастных картинках. С одной стороны, это определенно стиль манги, но неоспоримо то, что каждый художник уникален и ее изображение человека самобытно. Это именно её разработанный притягательный визуальный язык, который я запомнила.

На данный момент она известна также как хужожник такой манги как «Обещанный Неверленд» (2016)

big
Original size 2072x674

tuki.『晩餐歌』Official Music Video (2024)

Вероятно сам факт того, что я давно не видела в своём инфопузыре художницу, однако вспомнила её визуальный стиль даже спустя долгое время навел меня на мысль, а что ее отличает от других мангак.

Целью этого эксперемента является вопрос воссоздания графического языка Посуки Демизу. Удасться ли передать это освещение, детализацию еды и пластику тела и предметов?

//Описание процесса обучения

big
Original size 1554x231

Фрагменты работ Posuka Demizu

Я собрала датасет, насчитывающий в себе 23 полные иллюстрации художницы.

Original size 962x1363

Чаще всего на ее работах изображены дети и подростки, поэтому для модели в запросах будет релеватнее писать children, kids, little boy/girl.

Original size 1521x1197
Original size 1523x674
Original size 1260x877

В качестве рабочей среды я остановилась на Google Collab. Далее импортирую все необходимые скрипты и библиотеки, например diffusers. Для обучения применялась модель Stable Diffusion XL, которая была дообучена с использованием DreamBooth и LoRA. Я загрузила свой датасет с картинками в виде зип файла, после чего распаковываю его.

from google.colab import files uploaded = files.upload () ! unzip PosukaDemizu.zip

Далее прописываю скорость обучения нейросети и логинюсь в свой аккаунт на сайте Hugging Face, предварительно создав токен, для хранения обученной модели.

! accelerate config default

from huggingface_hub import notebook_login notebook_login ()

Original size 654x413

Обучение заняло коло 30-40 минут.

Original size 591x110
Original size 594x467

Далее я выгрузила полученную модель на Hugging Face и на данном этапе готова к первым картинкам, с промпом для вызова модели, «photo collage in Posuka Demizu style»

Я решила начать с частой темой в работах Посуки — трапезы (гипертрофированные размеры еды, утвари по отношениюк детям)

Генеративная сеть ни в какую не хотела делать лица или хотя бы некую породию, поэтому далее начались эксперементы с checkponint и интенсивностью влияния модели

слева — чекпоинт 250 // справа — чекпоинт 500 prompt: photo collage in Posuka Demizu style, a sleeping girl in bottle with fruits

На 500 чекпоинте появилось больше белых бликов на стекле, присущие визуальному языку художнцы. Даже лицо не уехло, волосы стали акварельнее и тоже приобрели блики, даже появился намек на ракурс камеры. Однако картинка потеряла в насыщенности и контрастности.

Далее я попробовала смешать с 20% стандартной нейронки и изображение стекла начало походить на то как Посука рисует в своих артах. На данном этапе мне понравилось то, как сгенерировались рюши и оборки на сорочке девочки, однако фрукты начали выглядеть слишком натуралистично, как фотобаш. И все также девочка спят не внутри банки (сеть решила, что хочет положить не одного, а двух детей).

Original size 1024x1024

prompt: photo collage in Posuka Demizu style, a sleeping girl in bottle with fruits

Original size 1635x396

Фрагменты оригинальных работ: примеры стекла и бликов

Удалось перегенерить так, что картинка соответсвует промпту, что девочка находится именно внутри бутылки в размере одного человека. Фрукты не выбиваются из общей картинки и впечатления были положительные от полученного результата (разве что глаза, но зато конечностей адекватное количество). Могу также отметить волосы и приятное изображение ткани с оборками.

Однако она опять же потеряла в контрасте и резкости мазков, лицо все еще не совсем то. Небольшая хаотичность нажима кисточки при рисовании контура не появилась.

Original size 1024x1024

prompt: photo collage in Posuka Demizu style, a sleeping girl in bottle with fruits (ура.)

слева — чекпоинт 250 + 20% стандартной // справа — чекпоинт 500 +20% стандартной prompt: photo collage in Posuka Demizu style, Lady in ball dress dancing under the moon on plate

Наглядное забавное сравнение того как сильно меняется результат от выставленного чекпоинта.

слева — 250 чекпоинт // справо — 500 чекпоинт

Предварительно имеем: - диджитальная акварельность - приятные фрукты - легкость в одежде (вероятно рюши образовались из-за двух картинок в датабазе с изображением) - эфемерный лайтинг

Недостатки: - малая насыщенность - потеряна контрастность - в лица все еще не умеет

//Результирующая серия изображений

Original size 1708x650
0

prompt: photo collage in Posuka Demizu style, an angel boy with a lot of wings falls from the cliff of the roof with bright blue sky

prompt:

photo collage in Posuka Demizu style, a cup of tea in the background, plate with a piece of cake and two children staying on this plate on the foreground

500 checkpoint

Original size 1024x1024

prompt: photo collage in Posuka Demizu style, Lady in ball dress dancing under the moon on plate

слева — чекпоинт 250 + 20% // справа — чекпоинт 500 +20% prompt: photo collage in Posuka Demizu style, a plate full of flowers with three kids staying on it with dramatic lighting

prompt:

photo collage in Posuka Demizu style, little boy lays near a huge glass cup filled with tea among strawberries some on the floor

Original size 2132x497
Original size 1024x1024
Original size 1024x1024

prompt: photo collage in Posuka Demizu style, a pirate dancing inside a whirl of giant gold fish

prompt:

photo collage in Posuka Demizu style, a silver plate filled with chopped parts of children with a red flower and small child head in the middle of plate

слева — чекпоинт 250 // справа — чекпоинт 500 +20% от стандартной нейронки

Original size 1024x1024

500 checkpoint

Забавно, что здесь он повторил лицо как с одного из примеров из датасета.

Original size 1024x1024

prompt: photo collage in Posuka Demizu style, school girl with wings walks down the stairs in park at noon

prompt: photo collage in Posuka Demizu style, china town with boy walking among a bunch of reptile like monsters

Заключение

Подводя итог, генеративная сеть как показала потенциал так и вектор своего роста в перспективе. Её можно использовать как инструмент для деконструкции и сборки работ их анализа и выведения уникальных черт того или иного художника. Вероятно, будь у меня самой чуть больше работ для приемлимого датасета, в контексте количества, можно было бы и проследить собственные визуальные крючки.

Результат эксперемента хоть и смог сгенерировать нечто отдаленное на то, что изображает Посука Демизу в своих работах, однако оно остается пародией.

Оно неплохо интерпритирует, будто ИИ и есть художник, который пытается подобраться под графический язык другого художника, однако мы пока быстро отличаем что сделано именно им. Вероятно для более приближенного результата стоит потратить больше времени и энерегии.

Применение генеративной модели

Hugging Face — токен для обучения нейросети и выгрузка модели на сайт.

Adobe Color — подбор цветовой палитры для визуала лонгрида

Stable Diffusion XL — обучение генеративной сети под стиль художницы

Обучение генеративной сети — Posuka Demizu