
Выбор базы данных
Я обучаюсь на направлении CGI и визуальные эффекты, и планирую более углубленно изучать именно специальные эффекты для игровых фильмов и сериалов, поэтому меня очень интересует киноиндустрия не только с любительской, но и с профессиональной точки зрения. Для проекта я решила выбрать датасет, анализирующий фильмы на Netflix — самой популярной платформе для просмотра фильмов и сериалов — до 2025 года.
Данные я нашла на сайте Kaggle. Для этого я перешла по тэгу Movies and TV Shows и выбрала интересующий меня датасет. Он содержит в себе информацию об ID каждого фильма, названии и описании, режиссере, актерском составе, жанрах, оценках, бюджете и сборах.
Визуализация
Для визуализации я выбрала столбчатые диаграммы: для наглядности изменений количества фильмов по году выпуска и рейтингу и для оформления топ-10 самых прибыльных и самых убыточных фильмов. Также я использовала круговую диаграмму для визуализации процентного соотношения первых 20 стран по производству фильмов.
Для стилизации я выбрала сочетание зеленого и сиреневого и подобрала следующие цвета: #377543, #488553, #5aa167, #86bf91, #91cf9c, #91cfc0, #6dad9e, #548f81, #357566, #166351, #c793b6, #ab6895, #8f4576, #823067, #63164a, #d6cba7, #ad9f71, #968448, #806c2d, #75601a.
Обработка данных

Я начала с подключения библиотек для обработки данных и создания графиков и указала путь на датасет, расположенный на Google Drive.

Первый график — гистограмма, которая выводит количество фильмов по году (release year). Во всех столбчатых графиках используется цвет #86bf91.
Следующая гистограмма отображает среднюю оценку (rating), которую пользователи ставили фильмам.
Далее идет «пирог» (pie), демонстрирующий процентное соотношение фильмов по странам (country), в которых они были сняты. Для круговой диаграммы была использована вся палитра, указанная мной во введении.
Последняя диаграмма показывает прибыль самых успешных в прокате фильмов и финансовые потери самых убыточных. Для этого я вычитаю из сборов (revenue) фильмов их бюджет (budget).
Итоговые графики и выводы
Первый график показывает количество выходящих на сайте фильмов по годам. Можно заметить, что оно чередуется, благодаря чему получается интересная статистика.
Гистограмма рейтинга наглядно демонстрирует, что пользователи чаще всего ставят фильмам оценки 6 и 7. Из этого можно сделать вывод, что зрители считают качество большей части фильмов на платформе несколько выше среднего.
По круговой диаграмме видно, что практически половина всех фильмов, загруженных на сайт, были произведены в США. Исходя из разницы в процентах можно сделать вывод о развитии киноиндустрии в мире и о популярности самих фильмов среди зрителей.
По диаграмме прибыли можно увидеть, что самый успешный в прокате фильм собрал почти 2.5 млрд долларов, в то время как самый убыточный ушел в минус и потерял около 400 млн.
Описание применения генеративной модели
Для генерации обложки я использовала Ideogram.ai. Промпт: empty cinema theater in #A96391 lilac and #B2DCAD green colors.
Источники
Kaggle — поиск датасета. URL: https://www.kaggle.com/datasets/bhargavchirumamilla/netflix-movies-and-tv-shows-till-2025 Ideogram — генерация обложки. URL: https://ideogram.ai/ Upscayl — улучшение качества изображений. URL: https://github.com/upscayl
Ссылка на папку с блокнотом и датасетом: https://drive.google.com/drive/folders/1UDIw5MDDZho3dtNSizbiUNujDZTJLkfJ?usp=sharing