Original size 1140x1600

Визуализация данных. Netflix

PROTECT STATUS: not protected

Выбор базы данных

Я обучаюсь на направлении CGI и визуальные эффекты, и планирую более углубленно изучать именно специальные эффекты для игровых фильмов и сериалов, поэтому меня очень интересует киноиндустрия не только с любительской, но и с профессиональной точки зрения. Для проекта я решила выбрать датасет, анализирующий фильмы на Netflix — самой популярной платформе для просмотра фильмов и сериалов — до 2025 года.

Данные я нашла на сайте Kaggle. Для этого я перешла по тэгу Movies and TV Shows и выбрала интересующий меня датасет. Он содержит в себе информацию об ID каждого фильма, названии и описании, режиссере, актерском составе, жанрах, оценках, бюджете и сборах.

Визуализация

Для визуализации я выбрала столбчатые диаграммы: для наглядности изменений количества фильмов по году выпуска и рейтингу и для оформления топ-10 самых прибыльных и самых убыточных фильмов. Также я использовала круговую диаграмму для визуализации процентного соотношения первых 20 стран по производству фильмов.

Для стилизации я выбрала сочетание зеленого и сиреневого и подобрала следующие цвета: #377543, #488553, #5aa167, #86bf91, #91cf9c, #91cfc0, #6dad9e, #548f81, #357566, #166351, #c793b6, #ab6895, #8f4576, #823067, #63164a, #d6cba7, #ad9f71, #968448, #806c2d, #75601a.

Обработка данных

big
Original size 2010x420

Я начала с подключения библиотек для обработки данных и создания графиков и указала путь на датасет, расположенный на Google Drive.

big
Original size 1380x180

Первый график — гистограмма, которая выводит количество фильмов по году (release year). Во всех столбчатых графиках используется цвет #86bf91.

Original size 1647x204

Следующая гистограмма отображает среднюю оценку (rating), которую пользователи ставили фильмам.

Original size 4395x546

Далее идет «пирог» (pie), демонстрирующий процентное соотношение фильмов по странам (country), в которых они были сняты. Для круговой диаграммы была использована вся палитра, указанная мной во введении.

Original size 1641x486

Последняя диаграмма показывает прибыль самых успешных в прокате фильмов и финансовые потери самых убыточных. Для этого я вычитаю из сборов (revenue) фильмов их бюджет (budget).

Итоговые графики и выводы

Original size 1014x351

Первый график показывает количество выходящих на сайте фильмов по годам. Можно заметить, что оно чередуется, благодаря чему получается интересная статистика.

Original size 1142x864

Гистограмма рейтинга наглядно демонстрирует, что пользователи чаще всего ставят фильмам оценки 6 и 7. Из этого можно сделать вывод, что зрители считают качество большей части фильмов на платформе несколько выше среднего.

Original size 2706x2370

По круговой диаграмме видно, что практически половина всех фильмов, загруженных на сайт, были произведены в США. Исходя из разницы в процентах можно сделать вывод о развитии киноиндустрии в мире и о популярности самих фильмов среди зрителей.

Original size 1118x916

По диаграмме прибыли можно увидеть, что самый успешный в прокате фильм собрал почти 2.5 млрд долларов, в то время как самый убыточный ушел в минус и потерял около 400 млн.

Описание применения генеративной модели

Для генерации обложки я использовала Ideogram.ai. Промпт: empty cinema theater in #A96391 lilac and #B2DCAD green colors.

Источники

Kaggle — поиск датасета. URL: https://www.kaggle.com/datasets/bhargavchirumamilla/netflix-movies-and-tv-shows-till-2025 Ideogram — генерация обложки. URL: https://ideogram.ai/ Upscayl — улучшение качества изображений. URL: https://github.com/upscayl

Ссылка на папку с блокнотом и датасетом: https://drive.google.com/drive/folders/1UDIw5MDDZho3dtNSizbiUNujDZTJLkfJ?usp=sharing

Визуализация данных. Netflix