Визуализация данных в Python: объяснение основных графиков [с графической иллюстрацией]

Опубликовано: 2021-02-08

Оглавление

Основные принципы проектирования

Для любого начинающего или успешного специалиста по данным умение объяснить свои исследования и анализ является очень важным и полезным навыком. Здесь на помощь приходит визуализация данных. Крайне важно использовать этот инструмент честно, так как аудитория может быть очень легко дезинформирована или обманута неудачным выбором дизайна.

Как специалисты по данным, у всех нас есть определенные обязательства в отношении сохранения того, что является правдой.

Во-первых, мы должны быть полностью честны сами с собой при очистке и обобщении данных. Предварительная обработка данных является очень важным шагом для работы любого алгоритма машинного обучения, поэтому любая нечестность в данных приведет к совершенно другим результатам.

Еще одно обязательство перед нашей целевой аудиторией. Существуют различные методы визуализации данных, которые используются, чтобы выделить определенные разделы данных и сделать некоторые другие части данных менее заметными. Поэтому, если мы не будем достаточно осторожны, читатель не сможет правильно изучить и оценить анализ, что может привести к сомнениям и отсутствию доверия.

Всегда задавать себе вопросы — хорошая черта для специалистов по данным. И мы всегда должны думать о том, как показать то, что действительно важно, в понятной и эстетически приятной форме, не забывая при этом о важности контекста.

Это именно то, что Альберто Каиро пытается изобразить в своих учениях. Он упоминает о пяти качествах великих визуализаций: прекрасном, просветляющем, функциональном, проницательном и правдивом , о которых стоит помнить.

Некоторые фундаментальные сюжеты

Теперь, когда у нас есть общее представление о принципах проектирования, давайте углубимся в некоторые фундаментальные методы визуализации с использованием библиотеки matplotlib в python.

Весь приведенный ниже код можно выполнить в блокноте Jupyter.

блокнот %matplotlib

# это обеспечивает интерактивную среду и устанавливает серверную часть. ( %matplotlib inline также можно использовать, но он не интерактивен. Это означает, что любые дальнейшие вызовы функций построения графиков не будут автоматически обновлять нашу исходную визуализацию.)

import matplotlib.pyplot as plt # импорт необходимого библиотечного модуля

Точечные графики

Самая простая функция matplotlib для построения точки — plot() . Аргументы представляют координаты X и Y, а затем строковое значение, описывающее, как должны отображаться выходные данные.

plt.figure()

plt.plot( 5, 6, '+' ) # знак + действует как маркер

Диаграммы рассеяния

Диаграмма рассеяния представляет собой двумерный график. Функция scatter() также принимает значение X в качестве первого аргумента и значение Y в качестве второго. График ниже представляет собой диагональную линию, и matplotlib автоматически регулирует размер обеих осей. Здесь точечная диаграмма не рассматривает элементы как серию. Итак, мы также можем дать список желаемых цветов, соответствующих каждой из точек.

импортировать numpy как np

х = np.массив ([1, 2, 3, 4, 5, 6, 7, 8])

у = х

plt.figure()

plt.scatter( x, y )

Линейные графики

Линейный график создается с помощью функции plot() и отображает ряд различных серий точек данных, как точечную диаграмму, но соединяет каждую серию точек линией.

импортировать numpy как np

linear_data = np.array ([1, 2, 3, 4, 5, 6, 7, 8])

квадратные_данные = линейные_данные**2

plt.figure()

plt.plot (линейные_данные, '-o', квадратные_данные, '-o')

Чтобы сделать график более читабельным, мы также можем добавить легенду, которая расскажет нам, что представляет собой каждая линия. Важно подходящее название для графика и обеих осей. Также любой участок графика можно затенить с помощью функции fill_between() , чтобы выделить соответствующие области.

plt.xlabel('Значения X')

plt.ylabel('Значения Y')

plt.title('Линейные графики')

plt.legend(['линейный', 'квадратный'] )

plt.gca().fill_between(диапазон (длина (линейные_данные)), linear_data, squared_data, facecolor = 'синий', альфа = 0,25)

Вот как выглядит модифицированный график:

Гистограммы

Мы можем построить гистограмму, отправив аргументы для значений X и высоты каждого столбца в функцию bar() . Ниже приведена гистограмма того же линейного массива данных, который мы использовали выше.

plt.figure()

x = диапазон ( len ( linear_data ))

plt.bar( x, linear_data )

# для построения данных в квадрате в виде другого набора столбцов на том же графике мы должны скорректировать новые значения x, чтобы компенсировать первый набор столбцов

новый_х = []

для данных в x:

new_x.append (данные + 0,3)

plt.bar (new_x, squared_data, ширина = 0,3, цвет = «зеленый»)

# Для графиков с горизонтальной ориентацией используем функцию barh()

plt.figure()

х = диапазон (длина (линейные_данные))

plt.barh(x, linear_data, высота = 0,3, цвет = 'b')

plt.barh(x, squared_data, высота = 0,3, слева = linear_data, цвет = 'g')

#вот пример вертикального расположения гистограмм

plt.figure()

х = диапазон (длина (линейные_данные))

plt.bar(x, linear_data, ширина = 0,3, цвет = 'b')

plt.bar(x, squared_data, ширина = 0,3, нижняя часть = linear_data, цвет = 'g')

Изучите курсы по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Заключение

На этом типы визуализации не заканчиваются. Python также имеет отличную библиотеку под названием seaborn , которую определенно стоит изучить. Правильная визуализация информации значительно помогает повысить ценность наших данных. Визуализация данных всегда будет лучшим вариантом для получения информации и выявления различных тенденций и закономерностей, а не просмотра скучных таблиц с миллионами записей.

Если вам интересно узнать о науке о данных, ознакомьтесь с дипломом IIIT-B & upGrad PG в области науки о данных, который создан для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1- on-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

Какие есть полезные пакеты Python для визуализации данных?

В Python есть несколько замечательных и полезных пакетов для визуализации данных. Некоторые из этих пакетов упомянуты ниже:
1. Matplotlib — Matplotlib — это популярная библиотека Python, используемая для визуализации данных в различных формах, таких как диаграммы рассеяния, гистограммы, круговые диаграммы и линейные диаграммы. Он использует Numpy для своих математических операций.

2. Seaborn — библиотека Seaborn используется для статистического представления в Python. Он разработан на основе Matplotlib и интегрирован со структурами данных Pandas.
3. Altair . Altair — еще одна популярная библиотека Python для визуализации данных. Это декларативная статистическая библиотека, позволяющая создавать визуальные эффекты с минимально возможным кодированием.
4. Plotly — Plotly — это интерактивная библиотека Python для визуализации данных с открытым исходным кодом. Визуальные элементы, созданные этой библиотекой на основе браузера, поддерживаются многими платформами, такими как Jupyter Notebook, и автономными файлами HTML.

Что вы знаете о точечных и точечных диаграммах?

Точечные графики — это самые основные и простые графики для визуализации данных. Точечный график отображает данные в виде точек на декартовой плоскости. «+» показывает увеличение значения, а «-» показывает уменьшение значения с течением времени.
Точечная диаграмма, с другой стороны, представляет собой оптимизированный график, на котором данные визуализируются на двумерной плоскости. Он определяется с помощью функции scatter(), которая принимает значение оси X в качестве первого параметра и значение оси Y в качестве второго параметра.

Каковы преимущества визуализации данных?

Следующие преимущества показывают, как визуализация данных может стать настоящим героем роста организации:
1. Визуализация данных упрощает интерпретацию необработанных данных и понимание их для дальнейшего анализа.
2. После исследования и анализа данных результаты можно отобразить с помощью содержательных визуализаций. Это облегчает связь с аудиторией и объяснение результатов.
3. Одним из наиболее важных применений этого метода является анализ закономерностей и тенденций для прогнозирования и определения потенциальных областей роста.
4. Это также позволяет вам разделять данные в соответствии с предпочтениями клиентов. Вы также можете определить области, которые требуют большего внимания.