Original size 894x1173

Анализ датасета из ресурса Kaggle Diabetes Health Dataset Analysis

PROTECT STATUS: not protected

Я выбрала именно этот датасет, так как мне всегда хотелось поучаствовать в научных исследованиях и привнести какой-то вклад. Но раз уж не научный, так аналитический, а я к тому же ещё и дизайнер, так что попробую помочь научным работникам визуализировать данные и работать с ними для решения проблем диабетиков.

Виды графиков

1. Хитмэп график; 2. Столбчатый график; 3. Хитмэп корреляций признаков; 4. Линейный график зависимости; 5. Скеттер график после кластеризации.

Этапы работы

1. Выбор данных, которые интересно проанализировать, предобработка данных; 2. Анализ данных; 3. Визуализация.

Оформление графиков

В оформлении графиков я использовала разные символы, которые напоминают детские пластыри в сочетании с разноцветными графиками, что отражает тему датасета.

Описание датасета

Данный датасет содержит комплексные данные о здоровье 1,879 пациентов, уникально определённых идентификаторами в диапазоне от 6,000 до 7,878. Данные включают демографические сведения, факторы образа жизни, медицинскую историю, клинические измерения, использование лекарств, симптомы, оценки качества жизни, экологические воздействия и здоровые привычки. Каждый пациент связан с конфиденциальным врачом, ответственным за него, обеспечивая конфиденциальность и неразглашение данных. Этот датасет идеален для исследователей и дата-саентистов, желающих изучить факторы, связанные с диабетом, разработать прогностические модели и провести статистические анализы.

Сделаю общую предобработку (импорт библиотек, поверхностный анализ и т. д.).

Original size 2664x872

Ещё я почищу данные. Например, я выяснила, что ID пациента и доктор, который отвечает за пациента, нас не особо интересуют. Поэтому я уберу эти колонки, чтобы «чище» посмотреть на визуализацию.

Original size 886x108

Сначала хочу общо рассмотреть данные в датасете по признакам, так я сделаю интерактивный график, чтобы переключаться между графиками, так как признаков очень много.

Ещё я стилизовала с помощью ChatGPT в красно-оранжевые цвета, он предложил «использовать цветовую палитру „RdYlBu“ из библиотеки Seaborn для создания красно-жёлтых оттенков на гистограмме и текстовых элементах графика. Таким образом, вы сможете стилизовать график в соответствии с заданными цветовыми предпочтениями.»

ПРОМТ — сделай код стилизованным в красно-жёлтых оттенках.

Original size 1418x828
Original size 1312x896

Теперь я хочу посмотреть на корреляцию признаков и выявить те, которые стоит подробнее исследовать.

Original size 1470x714
Original size 1684x1426

От меня полезнее будет исследование вредных привычек и их влияние на здоровье людей разных возрастов и гендера, поэтому я сгруппирую их в отдельный датафрейм.

Original size 2662x714
Original size 2158x718

Тут я попросила ChatGPT стилизовать колонки каким-то принтом (напоминает детский пластырь).

ПРОМТ — стилизуй график, чтобы колонки были с принтом.

Original size 1584x846

Распределение вредных привычек по возрасту и гендеру

Теперь я построю график для визуализации матрицы корреляции факторов здоровья среди различных групп людей (по полу и кластерам), предварительно используя метод группировки данных с помощью алгоритма KMeans и интерактивные возможности библиотеки Plotly Express. График позволяет визуально сравнить взаимосвязь между различными факторами здоровья (индекс массы тела, курение, потребление алкоголя, физическая активность, качество диеты, качество сна) и выделенными кластерами людей. Это поможет вам лучше понять взаимосвязи между этими факторами и группировкой людей по их характеристикам здоровья.

Original size 2226x868
Original size 1408x961

Матрица корреляции факторов здоровья по полу и кластерам

Надеюсь, что моё мини-исследование поможет в научной сфере или хотя бы предупредит людей остерегаться вредных привычек во избежания заболеваний.

Анализ датасета из ресурса Kaggle Diabetes Health Dataset Analysis