Что такое описательная статистика? Определение, объяснение типов

Опубликовано: 2021-08-13

Описательная статистика представляет собой организованные и обобщенные характеристики набора данных. Набор наблюдений из всей совокупности или выборки называется набором данных. Первым шагом после сбора данных является описание откликов характеристик, таких как среднее значение одной переменной или связь между двумя переменными. Например, обнаружение связи между возрастом и креативностью дает нам статистический анализ.

Следующим шагом является поиск выводной статистики, которая указывает, опровергают ли ваши данные или подтверждают гипотезу. Это также помогает нам решить, влияет ли на него обобщенная популяция. В наши дни исследователи придают большое значение науке о данных и большим данным, поэтому эти данные обрабатываются с максимальной тщательностью. Здесь в дело вступает описательная статистика.

Одним из важных шагов для анализа описательной статистики является то, что она дает описания, конструктивно показывает точки данных и предоставляет полезную информацию о данных. Кроме того, он дает вам заключение о распределении данных, помогает обнаружить выбросы и позволяет выявить сходство между переменными.

Оглавление

Типы описательной статистики

  • Распределение частоты

Распределение частоты показывает количество или частоту различных результатов в выборке или наборе данных. Он используется как для качественных, так и для количественных данных и обычно представляется в виде графика или таблицы. Каждая запись на графике или в таблице сопровождается частотой или количеством вхождений значений в диапазоне, интервале или определенной группе.

Чтобы было ясно, это сводка или представление сгруппированных данных, классифицированных на основе эксклюзивных классов. Он также представляет количество вхождений в каждой соответствующей категории. Таким образом, это указывает на более организованный и структурированный способ представления необработанных данных.

Некоторыми примерами данных частотного распределения являются графики или диаграммы, используемые для представления частот. Кроме того, круговые диаграммы, гистограммы, линейные диаграммы и гистограммы также являются индикатором частотного распределения.

  • Главная тенденция

Центральная тенденция обычно относится к описательной сводке набора данных с использованием одного значения, отражающего центр распределения данных. Таким образом, меры центральной тенденции широко известны как меры центрального расположения. Три основных аспекта центральной тенденции:

    • Иметь в виду

Среднее считается наиболее популярной центральной тенденцией. Это среднее или наиболее распространенное значение набора данных. Чтобы определить среднее значение, это простейшее математическое среднее двух или более чисел. Среднее задается набором чисел в данных, которые могут быть вычислены более чем одним способом. Различают два типа среднего: среднее арифметическое и среднее геометрическое.

Например, чтобы найти среднее значение следующего набора данных; 2,3,4,5,6. Затем среднее значение этих данных равно четырем, если просто добавить набор данных и разделить его на количество значений в наборе данных.

    • медиана

Медиана — это средний балл любого набора данных в порядке возрастания или убывания. Таким образом, список чисел является более описательным в наборе данных, чем средний.

Например, в случае нечетного набора данных {3, 13, 2, 34, 11, 26, 47} вам нужно сначала упорядочить данные {2, 3, 11, 13, 26, 34, 47 }, здесь медиана равна 13, потому что по обе стороны от ряда находятся одинаковые числа. С другой стороны, в случае четного набора данных {3, 13, 2, 34, 11, 17, 27, 47} вам необходимо сначала упорядочить данные в порядке {2,3,11,13, 17,26,34,47}, здесь медианой будет сумма двух цифр, стоящих в середине ряда, деленная на 2. Следовательно, медианой будет 13+17/2, что равно 15.

    • Режим

Мода относится к значению оценки, которое наиболее часто встречается в данных. Набор данных может иметь один режим, более одного режима или вообще не иметь режима.

Например, для набора данных с номерами {3,5,6,6,6,8,9} режим будет равен 6, а если в наборе данных нет одинаковых номеров, то считается, что данные не имеют режима. .

  • Изменчивость

Изменчивость — это мера сводной статистики, отражающая степень дисперсии в выборке. Он также измеряет изменчивость, которая определяет, насколько далеко точки данных отображаются от центра.

Распространение, дисперсия и изменчивость относятся к ширине и диапазону значений распределения в данных. Стандартное отклонение, дисперсия и диапазон используются для описания различных аспектов и компонентов спреда.

Диапазон в наборе значений отображает степень дисперсии или идеальное расстояние между самым низким и самым высоким значениями в данных. Стандартное отклонение используется для установления средней дисперсии в наборе данных. Это также дает представление о разнице или расстоянии между значениями в наборе данных. Он также отображает среднее значение данных. Наконец, он отражает степень распространения.

Важность описательной статистики

  • Бдительные данные

Данные, собираемые для описательной статистики, должны обладать высокой степенью объективности. Поэтому нужно быть особенно бдительным, потому что, если статистика показывает разные характеристики извлеченных данных и не соответствует тенденциям, она будет бесполезна.

  • Более широкий подход

Описательная статистика считается более обширной, чем количественный метод. Он направлен на предоставление более широкой картины явления или события. Это может использовать одно количество переменных или любое количество переменных для проведения исследования.

  • Естественное отношение

Эти статистические данные считаются лучшим методом сбора информации, потому что они естественны и показывают мир таким, какой он есть. Он исследует реальное поведение данных, чтобы обеспечить точность извлеченных трендов.

  • Гибкий

Описательная статистика дает исследованию новый способ изучения вещей. Например, исследователи могут использовать тематическое исследование, которое является одновременно корреляционным и качественным, для описания явлений описательной статистики. Можно использовать тематические исследования для описания событий, людей и учреждений. Это позволит исследователям понять закономерности и поведение данных.

Получите онлайн- сертификат по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

  • Определите переменные и гипотезы

Описательная статистика пригодится при выявлении новых гипотез и переменных, которые могут быть дополнительно проанализированы с помощью экспериментальных исследований и выводов. Более того, это очень полезно, так как предел погрешности относительно невелик, а тренды напрямую берутся из свойств данных.

Заключить

Описательная статистика имеет решающее значение для визуализации данных, поскольку она позволяет экспертам по данным осмысленно представлять свои выводы, чтобы их могли понять как технические, так и нетехнические заинтересованные стороны. Обобщая сложные количественные данные с помощью точных графических представлений, описательная статистика упрощает процесс интерпретации данных, облегчая предприятиям принятие решений на основе данных.

Если вам интересно узнать больше о различных статистических концепциях и методах, используемых в науке о данных, обязательно ознакомьтесь с курсами программы upGrad Executive PG по науке о данных . Эти курсы, проводимые преподавателями ведущих национальных и зарубежных университетов, предоставят вам необходимые для отрасли навыки и знания.

Подготовьтесь к карьере будущего

Начните свою карьеру в науке о данных с IIIT - Бангалор
Подать заявку на участие в программе Advanced Certificate Program в области науки о данных