Сегментированная группа столбцов в аналитике данных: полное руководство

Опубликовано: 2021-08-14

Сегментированная гистограмма — знакомая концепция в Data Analytics. Но знаете ли вы его основы?

Графики являются одним из наиболее распространенных способов представления взаимосвязей между данными, особенно слишком сложными и многочисленными для удобной иллюстрации в рамках ограниченного пространства и времени. Учитывая огромное количество информации, собираемой и обрабатываемой с помощью анализа данных, уместно иметь способ представить эти данные для точной интерпретации и вывода. Визуализация данных дает нам четкое представление о том, что означает информация, придавая ей визуальную форму с помощью диаграмм и графиков. Следовательно, данные становятся более понятными для человеческого разума, и они могут быстро выявлять закономерности, тенденции и аномалии в больших наборах данных. Если вы новичок в аналитике данных и науке о данных, сертификаты upGrad по науке о данных определенно помогут вам глубже погрузиться в мир данных и аналитики.

Способность приводить убедительные аргументы посредством визуализации данных — одно из выдающихся качеств квалифицированного специалиста по науке о данных. Хотя есть несколько вариантов графиков и диаграмм

можно выбрать иллюстрацию данных в различных сценариях, сегментированная гистограмма или сегментированная гистограмма привлекают большое внимание аналитиков данных.

В этой статье вы узнаете об основах сегментированной гистограммы, о том, почему она используется, где она используется, а также о курсах upGrad Data Science , которые помогут вам овладеть навыками, необходимыми для успешного аналитика данных.

Но сначала давайте освежим в памяти гистограммы.

Оглавление

Гистограммы

Среди наиболее часто используемых типов графиков/диаграмм столбчатая диаграмма или столбчатая диаграмма состоит из серии столбцов, отображающих сравнение различных категорий данных. Гистограммы являются одним из наиболее распространенных типов диаграмм и обычно легко понятны благодаря их знакомству.

Несмотря на простоту столбчатых диаграмм, они имеют ограниченное применение. Перед иллюстрацией данных в виде гистограммы крайне важно оценить характер данных и количество переменных, добавленных в диаграмму. В идеале гистограммы — отличный выбор, когда мы хотим проследить изменение одной или двух переменных во времени. Мы действительно можем использовать их для сравнения нескольких переменных в виде сгруппированной гистограммы. Однако такие сравнения могут привести к загроможденному представлению, что может привести к путанице.

Ниже приведены две иллюстрации: первая представляет собой простую гистограмму (с использованием одной переменной), а второй пример показывает кластеризованную гистограмму (с использованием двух переменных). На обеих иллюстрациях показано изменение доходов компании за определенный период — типичное применение столбчатых диаграмм в корпоративных сценариях. Второй пример показывает сравнение доходов двух компаний за определенный период времени.


Иллюстрация 1 ( Источник изображения )


Иллюстрация 2 ( Источник изображения )

Столбчатые гистограммы

В отличие от групповой гистограммы, на которой столбцы отображаются рядом, гистограммы с накоплением делят столбцы на секции. Гистограммы с накоплением используются, чтобы показать, как большая категория фрагментируется на более мелкие категории и как каждая часть влияет на общую сумму. Столбцы в линейчатой ​​диаграмме с накоплением классифицируются в порядке наложения, представляя разные значения. Одна ось показывает дискретные значения, а другая ось указывает столбцы переменных в порядке наложения. Различные цвета используются, чтобы показать отличительные части всего бара.

Ниже приведена иллюстрация, изображающая столбчатую диаграмму с накоплением: Источник изображения

Гистограмма с накоплением и сегментированная гистограмма

Гистограммы с накоплением бывают двух типов: простые гистограммы с накоплением и гистограммы со стопроцентным накоплением.

  • В простых столбчатых диаграммах с накоплением каждое значение сегмента размещается после предыдущего. Следовательно, общее значение бара является суммой всех значений сегмента. Таким образом, простые гистограммы с накоплением отлично подходят для сравнения общей суммы с каждой группой/сегментированной гистограммой.
  • Гистограмма с накоплением 100% или сегментированная гистограмма — это столбчатая диаграмма с накоплением, в которой сегментированные столбцы в сумме составляют 100%. Другими словами, столбцы с накоплением показывают относительный процент нескольких рядов данных, а общее количество столбцов с накоплением всегда равно 100 %. Поэтому важно убедиться, что каждый столбец представляет 100% при построении сегментированной гистограммы. Или же она станет простой столбчатой ​​диаграммой с накоплением.

Гистограммы с накоплением отображают отношение части к целому и даже могут показать, как части изменяются с течением времени. Ниже приведена простая иллюстрация сегментированной гистограммы, показывающая, как доля рынка продукта меняется каждый год. Существенным недостатком таких сегментированных гистограмм является то, что, хотя первый ряд данных легко сравнить (рядом с вертикальной осью на иллюстрации ниже), последующие сравнить сложнее, поскольку они не выровнены по общей базовой линии.

Источник изображения

Получите онлайн- сертификат по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Следующая иллюстрация еще больше прояснит анатомическую разницу между простой линейчатой ​​диаграммой с накоплением и сегментированной гистограммой:

Источник изображения

Что следует помнить при построении сегментированной гистограммы

  • Как гистограммы с накоплением, так и сегментированные гистограммы имеют двумерное представление с двумя осями — одна ось показывает категории, а другая показывает числовые значения. Ось, представляющая категории, не имеет шкалы, указывающей на то, что она относится к взаимоисключающим группам (например, компаниям, годам и т. д.). А вот ось с числовыми значениями имеет шкалу с соответствующими единицами измерения.
  • Стержни могут быть ориентированы как вертикально, так и горизонтально. Каждая основная категория делится на сегменты, где каждый сегмент представляет подкатегории второй категориальной переменной.
  • Высота или длина прямоугольных сегментов показывает количество каждой подкатегории и укладывается встык по вертикали или горизонтали.
  • Окончательная длина или высота каждого столбца представляет собой общую сумму в каждой основной категории (100 % в сегментированных столбчатых диаграммах).
  • Эквивалентные подкатегории должны быть представлены одним цветом.
  • Между столбцами основных категорий должно быть оставлено некоторое пространство, чтобы указать, что они представляют собой отдельные группы.

Плюсы и минусы сегментированных гистограмм

Сегментированная гистограмма — удобный инструмент для визуализации данных. Он имеет присущую гистограмме простоту и, тем не менее, находит применение во многих операциях анализа данных. Однако у него есть несколько недостатков, которые ограничивают его использование конкретными сценариями анализа данных.

Ниже приведены плюсы и минусы сегментированных гистограмм:

Плюсы:

  • Довольно легко понять состав категориальных данных.
  • Они изображают изменения от части к целому с течением времени.
  • Они могут представлять несколько категорий и рядов данных в компактном пространстве.

Минусы:

  • Читать становится труднее с увеличением сегментов в каждом такте.
  • Сравнение сегментов друг с другом становится затруднительным, поскольку они не выровнены по общей базовой линии.
  • Поскольку сложенные столбцы нормализованы до 100 %, измерение абсолютного значения теряется.

Путь вперед: подготовьте свою карьеру к будущему с upGrad

upGrad — это ведущая онлайн-платформа высшего образования, предлагающая актуальные для отрасли программы и курсы. С более чем 40 000 платных учащихся в 85 странах, инновации upGrad, объединяющие новейшие технологии и образовательные практики, помогли более чем 500 000 работающих профессионалов в своих областях.

Вот что дает учащимся преимущество upGrad :

  • Гибкое обучение и отраслевая учебная программа с персонализированным отраслевым наставничеством, практическими практическими отраслевыми проектами и живыми занятиями с преподавателями и экспертами.
  • Одноранговые сети, форумы разрешения сомнений и сетевые возможности.
  • Преподаватели ведущих университетов и компаний
  • Специальная команда наставников
  • Ориентированный на результат подход
  • 360-градусная помощь в карьере

Сертификация upGrad Executive PG в области науки о данных и степень магистра в области науки о данных — это две хорошо структурированные программы, которые помогут вам получить четкое представление о навыках и знаниях, необходимых для процветания карьеры в области науки о данных. У каждой программы есть свои преимущества, но обе предназначены для обеспечения увлекательного обучения в соответствии с последними отраслевыми стандартами. Владельцы сертификатов могут быть уверены, что благодаря большому количеству практических проектов, имеющих отношение к отрасли, они будут готовы столкнуться с трудным и постоянно конкурентным рынком труда, который требует постоянного профессионального повышения квалификации. Более того, эти программы — уникальная возможность пообщаться с профессионалами в области Data Science во всех отраслях промышленности.

Сертификация PG в программе Data Science Основные моменты:

  • Продолжительность курса семь месяцев в полностью онлайн-формате.
  • Специально разработан для работающих профессионалов.
  • Сертификат последипломного образования от IIIT Bangalore.
  • Охватывает языки программирования и инструменты, такие как Excel, Python, Tableau и MySQL.
  • Более 300 часов контента с более чем 7 кейсами и проектами, более 20 живых сессий и шесть заданий по программированию.

Степень магистра в области науки о данных Международного университета прикладных наук, Германия

Основные моменты программы:

  • Продолжительность курса 24 месяца (первый год онлайн и второй год в кампусе в Германии).
  • Двойная аккредитация (Executive PG Program от IIIT-B и Master's Degree от IU, Германия) и сертификат NASSCOM.
  • IELTS не требуется для учащихся upGrad.
  • Полный охват более 14 инструментов и программного обеспечения.
  • Более 500 часов контента с более чем 60 кейсами и проектами, более 20 живых сессий и 25 коуч-сессий 1:8 с отраслевыми экспертами.

В заключение

Знание того, как построить сегментированную гистограмму, является обязательным для аналитики данных, особенно если вы новичок и только начинаете осваивать методы визуализации данных. Такие графики легко строятся в Excel и не требуют дополнительных знаний о сложных инструментах и ​​программном обеспечении. Однако во-первых, крайне важно иметь четкое представление о данных, с которыми вы работаете, и о том, вписываются ли они в представление сегментированной гистограммы.

Поскольку потенциальный мировой рынок больших данных и бизнес-аналитики демонстрирует многообещающие тенденции на будущее, можно с уверенностью считать, что карьера в области наук о данных полна возможностей. Итак, подписывайтесь на upGrad и начинайте учиться у лучших!

В чем разница между графиком и диаграммой?

Диаграммы — это форма визуального представления данных, которая может принимать форму диаграммы, изображения или графика. На диаграмме категории могут быть связаны или не связаны друг с другом. С другой стороны, график — это числовое представление данных, показывающее, как изменение одного числа или переменной влияет на другое. Другими словами, график — это тип диаграммы, которая фокусируется на необработанных данных и отображает тенденцию этих данных с течением времени.

Что такое гистограмма и гистограмма?

Гистограмма использует вертикальные или горизонтальные полосы для представления категорийных данных, где длина каждой полосы пропорциональна значению данных, которое они представляют. Гистограмма, с другой стороны, представляет собой графическое представление данных, где данные организованы в непрерывные диапазоны чисел. На гистограмме каждая вертикальная полоса соответствует диапазону.

Как создать сегментированную гистограмму в MS Excel?

Ниже приведены шаги для создания сегментированной гистограммы в MS Excel:
Шаг 1. Введите данные в Excel в четко обозначенных столбцах.
Шаг 2: Выделите данные.
Шаг 3: Перейдите на вкладку «Вставка». Затем нажмите «Вставить столбец или гистограмму» в разделе «Диаграммы».
Шаг 4: Выберите параметр «Столбец с накоплением 100%».
Excel автоматически создаст сегментированную гистограмму.