Original size 1140x1600

Анализ продукции компании по производству одежды Myntra

PROTECT STATUS: not protected

Вводная часть

Для анализа данных я решила выбрать наборы данных с сайта Kaggle.com. Я заинтересовалась темой одежды и выбрал базу данных, связанную с ассортиментом одежды, выпускаемой компанией Myntra.

big
Original size 1280x720

Логотип компании Myntra

Myntra — крупная индийская компания электронной коммерции в сфере моды со штаб-квартирой в Бангалоре, штат Карнатака, Индия.] Компания была основана в 2007 году для продажи персонализированных сувениров. В мае 2014 года Myntra.com была приобретена компанией Flipkart.

База данных

big
Original size 1420x383

Датасет на сайте Kaggle.com

Для визуализации данных я использовала библиотеки Seaborn и Matplotlib, для анализа данных использовались библиотеки Scikit-learn и scipy.stats. Это позволит создавать удобные и красивые графики, чтобы отразить зависимости между данными.

База данных состоит из 12491 строк и 8 колонок, каждая строчка соответствует продукту компании и имеет такие показатели, как — номер, название и бренд продукта, гендер, цену, кол-во картинок, описание и цвет.

Среда разработки

Для выполнения анализа данных будем использовать среду разработки Jupyter Notebook

Jupyter Notebook — это интерактивная веб-приложение, которое позволяет создавать и использовать «ноутбуки» (отсюда и название). В этих ноутбуках можно объединить исполняемый код, текстовые описания, визуализации и другие мультимедийные элементы. Jupyter Notebook поддерживает более 40 языков программирования, включая Python, R и Julia.

Анализ данных

Для начала подключаем библиотеки, вот столько у меня их получилось в конечном итоге

Original size 497x274

Код № 1

Нам необходимо загрузить датасет и написать код, который описывает основные статистические характеристики данных и предоставляет информацию о типах данных и количестве непустых значений. Это важный шаг для первоначального анализа и понимания структуры данных. Выполнение этих шагов помогает подготовить данные для дальнейшего анализа и визуализации.

Original size 592x252

Код № 2

Original size 380x313

Выдача кода № 2

Original size 679x387

Выдача кода № 2

Original size 655x769

Выдача кода № 2

Для удобства анализа, мы будем работать только с колонками ProductID, Gender, Price (INR), PrimaryColor.

Original size 695x89

Код № 3

Original size 374x67

Код № 4

Original size 494x583

Выдача кода № 4

Вычислим сколько всего гендеров бывает в базе данных и построим две круговые диаграммы: кол-во продуктов для каждого гендера и средняя цена продуктов для каждого гендера.

Original size 816x543

Код № 5

Получились две диаграммы, но хотелось бы их стилизовать, используем стиль Pitaya smoothie.

Original size 1118x507

Выдача кода № 5

Pitaya smoothie — профессиональная тема с тщательно подобранными цветами, вдохновленная модным цветом Pantone 2018 года.

Original size 1269x255

Пример светлой темы стиля

Original size 1269x255

Пример темной темы стиля

Original size 903x751

Код № 6

Теперь цвета на диаграммах выглядят поприятнее, но сами диаграммы не очень информативные, попробуем использовать другой вид диаграмм.

Original size 1246x533

Выдача кода № 6

Original size 569x125

Код № 7

Вот например столбчатая диаграмма, которая отображает кол-во продуктов по каждому цвету. Цвета я решила использовать белый (white) для обводки и фиолетовый (violet) для заливки.

Original size 848x588

Выдача кода № 7

Original size 757x254

Код № 8

Original size 848x585

Выдача кода № 8

Original size 0x0

Код № 9

Теперь другой вид диаграммы — ящик с усиками (boxplot) Для корректного отображения выполним фильтрацию выбросов.

Original size 585x483

Выдача кода № 9

Original size 962x388

Код № 10

Original size 1129x732

Выдача кода № 10

Это точечная диаграмма распределения, но давайте сделаем ее визуально приятной, проведем фильтрацию данных и настроим цветной градиент.

Original size 973x506

Код № 11

Original size 1122x732

Выдача кода № 11

Наконец то мы перешли к теоретическому анализу данных и построению модели линейной регрессии. Для этого необходимо выполнить: преобразование категориальных признаков, разделить данные, выполнить обучение, прогнозирование и оценку модели.

Original size 927x693

Код № 12

Original size 939x670

Выдача кода № 12

Mean Squared Error (MSE) MSE — это среднеквадратичная ошибка, один из наиболее часто используемых методов оценки точности регрессионных моделей. Она вычисляется как среднее арифметическое квадратов ошибок, где ошибка — это разница между фактическим значением и предсказанным значением.

R² Score R² Score, или коэффициент детерминации, — это показатель, который указывает на долю дисперсии зависимой переменной, объясненную независимыми переменными в модели. Он варьируется от 0 до 1 (или может быть отрицательным, если модель совсем плохая), где 1 указывает на идеальное соответствие.

Статистический анализ

Далее выполним статистический анализ, в него будут входить: проверка нормальности распределения, равенства дисперсий и значимости различий между группами (ANOVA), а также Kruskal-Wallis H-тест и построение графика для наглядности.

Original size 661x318

Код № 13

Original size 695x560

Вывод кода № 13

Original size 563x320

Код № 14

Original size 298x46

Вывод кода № 14

Original size 632x318

Код № 15

Original size 465x56

Вывод кода № 15

Original size 442x88

Код № 16

Original size 856x536

Выдача кода № 16

Мы выполнили статистический анализ данных, но на точечной диаграмме отображение некорректно, поэтому используем box-plot.

Original size 1106x415

Код № 17

Original size 1008x704

Выдача кода № 17

Вывод

Мы провели анализ, построили модель линейной регрессии для прогнозирования цен на основании данных о товарах компании Myntra.

Оформление графиков

Original size 848x585

На выбор цветовой палитры меня подтолкнула сгенерированная с помощью нейросети обложка проекта.

Цвет текста:

#000000

Цвета графиков:

#ee82ee

#ffffff

#212946

Описание применения генеративной модели

Иллюстрация для обложки была создана с использованием нейросети на базе Stable Diffusion. Написанный промпт:

«An illustration of a stylish clothing item (like a dress, suit, or outfit) with an abstract, modern design. The style should be reminiscent of an Art Deco poster, with bold lines, geometric shapes, and a gradient color scheme. The clothing item should be the focal point, set against a minimalist background. The overall effect should be striking and artistic, conveying a sense of fashion and elegance.»

Нейросеть: https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium

Анализ продукции компании по производству одежды Myntra