Original size 2480x3500

Дообучение Stable Diffusion для создания персонажей из игры Minecraft

PROTECT STATUS: not protected

Концепция

В рамках курса «Создание инфраструктуры креативного производства инструментами ИИ» я занимался дообучением генеративной модели Stable Diffusion для создания изображений несуществующих мобов из игры «Minecraft».

Уже много лет разработчики «майнкрафта» выпускают обновления для игры, добавляя новые предметы и необычных существ. Разработчики также проводили «голосование за мобов», в котором игроки сами решали, какие мобы попадут в игру, а какие нет.

Я подумал, что будет интересно натренировать генератор мобов, который использует ИИ для создания изображений персонажей в фирменном стиле игры.

big
Original size 1042x512

Я взял стандартизированные изображения мобов в три четверти с Minecraft Wiki, использовав скрипт в питоне чтобы корректировать их формат и фон.

Итоговые изображения генерировались в формате 512 на 512 пикселей.

Результаты

big
Original size 1042x512

промпт: image of a minecraft mob, a magician in a purple outfit and cone hat

Original size 1042x512

промпт: image of a minecraft mob, a magician in a purple outfit and cone hat

Original size 1042x512

промпт: image of a minecraft mob, a rock gollem

Original size 1042x512

промпт: image of a minecraft mob, a rock gollem

Анализ

Несмотря на низкое разрешение входных и выходных данных, нейросеть смогла воспроизвести стиль майнкрафт мобов. Генератор вполне можно использовать для создания собственных концептов для модов или будущих обновлений в игре.

Материалы

Ссылка на доску в гугл-коллаб:

https://colab.research.google.com/drive/1bOfOMf3YV3vTIHHz2NZImbJ7Y13Hxq-I?usp=sharing

В проекте я дообучал и применял для генерации изображений модель Stable Diffusion XL (SDXL) с DreamBooth и LoRA, ссылка на получившуюся модель: https://huggingface.co/NoSurname/minecraft_mobs_LoRA

Дообучение Stable Diffusion для создания персонажей из игры Minecraft