Тест хи-квадрат: введение, как рассчитать, когда использовать

Опубликовано: 2022-11-09

В статистике критерий хи-квадрат используется для анализа данных наблюдений за нормально распределенным набором переменных. Как правило, это включает в себя сопоставление двух наборов числовой информации. Карл Пирсон впервые предложил этот метод анализа и распределения категориальных данных, назвав его критерием хи-квадрат Пирсона.

Критерий хи-квадрат, разработанный Пирсоном, используется в таблице непредвиденных обстоятельств, чтобы оценить, существует ли значительная статистическая разница между предсказанными и фактическими частотами в одной или нескольких категориях таблицы хи-квадрат.

Статистически статистики используют критерий хи-квадрат, чтобы определить, насколько хорошо модель соответствует данным. Для статистики хи-квадрат требуется случайная, взаимоисключающая, необработанная, независимая переменная выборка данных достаточного размера.

Запишитесь на курс машинного обучения в лучших университетах мира. Заработайте программы Masters, Executive PGP или Advanced Certificate Programs, чтобы ускорить свою карьеру.

Оглавление

Основные термины теста хи-квадрат

Стандартная формула для расчета критерия хи-квадрат представляет собой сумму квадратных ошибок или ложноположительных результатов, деленную на дисперсию выборки. Есть несколько терминов, которые реализуются при использовании теста хи-квадрат. Эти термины определены ниже:

р-значение

Значение p — это вероятность достижения хи-квадрата, равного или превышающего значение в настоящем эксперименте, и данные все еще подтверждают гипотезу. Эта вероятность выражается в процентах. Это относится к вероятности того, что ожидаемые изменения вызваны ничем иным, как случайными событиями.
Если p-значение меньше, чем равное 0,05, то принимается рассматриваемая гипотеза. Если значение больше 0,05, то гипотеза отвергается.

Степень свободы

Задача оценивания имеет определенную степень свободы, равную числу независимых переменных. Хотя нет жестких ограничений на значения этих переменных, они налагают ограничения на другие переменные, если мы хотим, чтобы наш набор данных соответствовал оценочным параметрам.

Одним из определений «степени свободы» является наибольшее количество значений в наборе данных, которые логически независимы друг от друга и, следовательно, могут быть изменены. Вычитание одного из общего числа наблюдений в наборе данных дает степень свободы.

Одним из важных контекстов, в которых рассматривается понятие степени свободы, является контекст проверки статистических гипотез, таких как хи-квадрат.

Понимание значения статистики хи-квадрат и надежности нулевой гипотезы в значительной степени зависит от точного расчета степени свободы.

Дисперсия

Дисперсия выборки случайных чисел является мерой ее дисперсии вокруг среднего значения. Он рассчитывается путем возведения в квадрат значения стандартного отклонения.

Свойства для выполнения теста хи-квадрат

Тест Хи-квадрат обладает следующими свойствами:

  • Среднее распределение равно количеству степеней свободы.
  • Дисперсия должна быть равна удвоенной степени свободы.
  • По мере роста степени свободы кривая распределения хи-квадрат начинает напоминать кривую нормального распределения, т. е. колоколообразную кривую.

Лучшие онлайн-курсы по машинному обучению и курсы по искусственному интеллекту

Магистр наук в области машинного обучения и искусственного интеллекта от LJMU Высшая программа высшего образования в области машинного обучения и искусственного интеллекта от IIITB
Продвинутая сертификационная программа по машинному обучению и НЛП от IIITB Расширенная программа сертификации в области машинного обучения и глубокого обучения от IIITB Программа Executive Post Graduate Program в области науки о данных и машинного обучения Университета Мэриленда
Чтобы изучить все наши курсы, посетите нашу страницу ниже.
Курсы по машинному обучению

Как выполнить тест Хи-квадрат?

Хи-квадрат для распределения рассчитывается по следующей формуле:

2 = [(Наблюдаемое значение — Ожидаемое значение ) 2 / Ожидаемое значение]

Шаги, которые необходимо выполнить, чтобы рассчитать статистику хи-квадрат

  1. Рассчитайте наблюдаемое и ожидаемое значение.
  2. Вычтите каждое из ожидаемых значений из наблюдаемого значения в таблице распределения.
  3. Возведите в квадрат значение для каждого наблюдения, полученного на шаге 2.
  4. Разделите каждое из этих квадратных значений на соответствующие ожидаемые значения.
  5. Сложение всех значений, полученных на шаге 4, дает значение, определяющее статистику хи-квадрат.
  6. Вычислите степень свободы для проверки выполнения вышеупомянутого свойства критериев хи-квадрат.

Типы теста хи-квадрат

Совершенство Fit

Если вы хотите увидеть, насколько хорошо выборка генеральной совокупности представляет целое, вы можете применить критерий согласия Хи-квадрат. С помощью этого метода сравниваются выборочная совокупность и прогнозируемая выборочная совокупность.

Тест на независимость

Это тест Хи-квадрат на независимость одной популяции, чтобы определить, существует ли корреляция между двумя категориальными переменными. Независимый тест отличается от теста согласия тем, что он не сравнивает ни один наблюдаемый параметр с теоретической популяцией. Вместо этого тест на независимость сравнивает два значения в наборе выборок друг с другом.

Тест на однородность

Как и тест на независимость, тест на однородность следует тому же формату и процедуре. Основное различие между ними заключается в том, что тест на однородность проверяет, имеет ли переменная одинаковое распределение во многих совокупностях. Напротив, тест на независимость исследует наличие связи между двумя категориальными переменными в аналогичной совокупности.

Когда следует использовать тест Хи-квадрат?

Тест хи-квадрат определяет, согласуются ли фактические значения с теоретическими вероятностями. Хи-квадрат является наиболее надежным тестом для использования, когда анализируемые данные поступают из случайной выборки, а рассматриваемая переменная является категориальной.

Востребованные навыки машинного обучения

Курсы искусственного интеллекта Курсы Табло
Курсы НЛП Курсы глубокого обучения

Где используется критерий хи-квадрат?

Возьмем пример маркетинговой компании.
Маркетинговая компания изучает взаимосвязь между географией потребителей и выбором бренда. Следовательно, хи-квадрат играет важную роль, и значение статистики будет информировать о том, как корпорация может адаптировать свой маркетинговый подход в разных регионах, чтобы максимизировать доходы.
При анализе данных критерий хи-квадрат пригодится для проверки непротиворечивости или независимости категориальных переменных, а также рассматриваемой модели согласия.

Точно так же статистика хи-квадрат может найти применение в медицине. Тест хи-квадрат подходит для определения эффективности лекарства по сравнению с контрольной группой.

Популярные блоги о машинном обучении и искусственном интеллекте

Интернет вещей: история, настоящее и будущее Учебное пособие по машинному обучению: Изучите машинное обучение Что такое алгоритм? Просто и легко
Заработная плата инженера-робототехника в Индии: все роли Один день из жизни инженера по машинному обучению: что они делают? Что такое IoT (Интернет вещей)
Перестановка против комбинации: разница между перестановкой и комбинацией 7 основных тенденций в области искусственного интеллекта и машинного обучения Машинное обучение с R: все, что вам нужно знать

Вывод

В этой статье вы узнали о статистике хи-квадрат и о том, как рассчитать ее значения. Поскольку Хи-квадрат работает с категориальными переменными, его часто используют ученые, изучающие данные ответов на опросы. Эта форма обучения распространена во многих областях, включая социологию, психологию, экономику, политологию и маркетинг.

Получите степень магистра наук в области машинного обучения и искусственного интеллекта с upGrad

Вы, наконец, хотите получить степень магистра наук? upGrad сотрудничает с IIIT-B и Ливерпульским университетом Джона Мура, чтобы предоставить вам наиболее тщательно подобранный курс. Получив степень магистра наук в области машинного обучения и искусственного интеллекта , вы освоите все необходимые навыки в области машинного обучения и искусственного интеллекта, такие как обработка естественного языка, глубокое обучение, обучение с подкреплением и т. д.

Критерии приемлемости:

  • Завершение бакалавриата с 50%
  • Завершение программы последипломного образования для руководителей в области машинного обучения и искусственного интеллекта от IIIT-B
  • Опыт работы не менее года приветствуется

Что предлагает вам этот курс:

  • Более 750 часов учебных материалов для изучения
  • Предназначен для работающих профессионалов
  • Более 15 заданий и кейсов
  • Более 12 проектов, из них 6 завершающих проектов
  • Живые уроки кодирования
  • Семинары по созданию профилей
  • Карьера
  • Индивидуальный высокоэффективный коучинг
  • Индивидуальные занятия по карьерному наставничеству
  • Эксклюзивные возможности трудоустройства
  • Персонализированные отраслевые сессии

Как p-значение связано с критерием хи-квадрат?

Значение p — это область под кривой плотности хи-квадрат, которая находится справа от значения тестовой статистики. Является ли статистика критерия хи-квадрат достаточно большой, чтобы отклонить нулевую гипотезу, является последним шагом в тесте значимости хи-квадрат. Для этой цели используется p-значение.

Есть ли какие-либо ограничения или недостатки в использовании теста хи-квадрат?

Все изучаемые лица должны быть уникальными; иначе результаты были бы бессмысленными. Критерий хи-квадрат не следует использовать, если данного респондента можно разделить на две отдельные группы. Еще одно ограничение хи-квадрата заключается в том, что его можно использовать только для частотных данных. Кроме того, сумма всех предсказанных людей во всех классах должна быть больше 5.

Каковы сильные стороны теста хи-квадрат?

Одна из его основных сильных сторон заключается в том, что хи-квадрат можно рассчитать быстро и легко. Номинальные данные также могут быть использованы с использованием этого метода. Его также можно использовать для сравнения более чем двух групп категориальных переменных на статистическую значимость.