Анализ мощности в статистике: что это такое и как его проводить?

Опубликовано: 2021-01-08

Проверка гипотез является важным аспектом любого статистического анализа. Тем не менее, есть много вещей, которые нужно предопределить, чтобы проводимый нами тест был максимально корректным. Здесь в игру вступает понятие мощности, определяющее эвристику статистического теста.

К концу этого урока вы будете знать:

Эвристика статистических тестов
В чем сила теста?
Для чего нужен анализ мощности?
Как провести анализ мощности

Оглавление

Эвристика статистических тестов
- 1. Уровень значимости и доверительный интервал
- 2. Р-значение
- 3. Ошибки типа 1 и типа 2
Какова мощность статистического теста?
- Мы занимаемся P-взломом?
Что такое анализ мощности?
Как провести анализ мощности?
- 1. Количество перекрытий
- 2. Размер эффекта
Прежде чем ты уйдешь
- Что такое анализ мощности?
- Какие факторы учитываются при проведении нашего анализа мощности?
- Что такое P-взлом?

Эвристика статистических тестов

Проведение правильных статистических тестов по нескольким эвристикам, которые необходимо предварительно настроить перед проведением теста. Очень важно установить правильную эвристику, поскольку ее нельзя изменить после запуска теста. Давайте посмотрим на некоторые из них.

1. Уровень значимости и доверительный интервал

Перед началом любого статистического теста необходимо установить порог вероятности. Этот порог или уровень значимости называется критическим значением (альфа). Полная область под кривой вероятности за пределами альфа-значения называется критической областью.

Альфа-значение говорит нам, насколько дальше точка данных выборки (или экспериментальная точка) должна быть от нулевой гипотезы (исходной средней точки), прежде чем сделать вывод, что она достаточно необычная, чтобы отклонить нулевую гипотезу. Обычно используемое значение альфа составляет 0,05 или 95% доверительный интервал.

2. Р-значение

Чтобы оценить, являются ли результаты теста, которые мы получили, статистически значимыми или нет, мы сравниваем критическое значение (альфа), которое мы установили перед тестом, с P-значением теста. P-значение — это вероятность получения значений, столь же экстремальных или даже более экстремальных, чем значение, которое мы тестируем.

3. Ошибки типа 1 и типа 2

Статистические тесты никогда не могут быть уверены на 100%. Всегда есть место для ошибки и введения в заблуждение результатами. Как обсуждалось выше, если мы установим значение альфа 0,05, будет доверительный интервал 95%. Следовательно, существует 5% вероятность того, что полученный вами результат неверен и вводит в заблуждение. Эти неверные результаты и есть то, что мы называем ошибками. Существует 2 типа ошибок — Тип 1 и Тип 2.

Значение уровня значимости 0,05 означает, что ваш статистический тест будет правильным в 95% случаев. Это также означает, что вероятность того, что это неверно, составляет 5%! Это будет случай, когда вы отвергаете нулевую гипотезу, когда она была верна. Это пример ошибки первого рода. И мы также можем сказать, что альфа ( α ) — это вероятность совершения ошибки первого рода.

Это также может быть случай, когда вы делаете вывод, что нулевая гипотеза верна, или принимаете ее, когда она ложна. Технически мы никогда не можем принять нулевую гипотезу. Мы можем только не отвергнуть его. Это то, что мы называем ошибкой второго типа. Точно так же вероятность того, что вы совершите ошибку типа 2, определяется как Бета — β .

Читайте: Аналитики данных: лучшие навыки и инструменты для освоения

Какова мощность статистического теста?

Сила теста — это вероятность правильного отклонения нулевой гипотезы, когда она ложна. Или, другими словами, мощность обратно пропорциональна вероятности совершения ошибки второго рода. Следовательно, Мощность = 1- β. Например, если мы устанавливаем мощность равной 80%, то мы имеем в виду, что 80% наших статистических тестов являются правильными, а не фиктивными. Следовательно, чем выше значение мощности, тем меньше вероятность совершения ошибки 2-го рода.

Но почему результаты могут быть фальшивыми? Это связано с тем, что здесь мы имеем дело со случайными выборками. А иногда взятая выборка слишком далека от среднего значения распределения и, следовательно, дает нереалистичные результаты, вынуждая нас принимать неверные решения. Вся цель Power Analysis состоит в том, чтобы предотвратить принятие нами неправильных решений.

Мы занимаемся P-взломом?

Давайте возьмем пример, когда мы создали вакцину от COVID-19 и очень уверены, что вакцина даст значительные результаты. Мы приступаем к проведению статистического теста, чтобы увидеть, верны ли наши убеждения и статистически. Поэтому установите альфа на 0,05 и проведите тест, используя 100 образцов.

После теста мы получаем P-значение 0,06. Мы видим, что она настолько близка к нашей альфе, но не меньше ее, что мы можем смело отвергать нулевую гипотезу. Заманчиво посмотреть, что произойдет, если мы увеличим количество образцов и повторим тест.

Итак, мы добавляем еще 50 образцов и видим, что P-значение теперь составляет 0,045. Мы только что доказали, что наша вакцина статистически значима? НЕТ! Мы просто P-хакнули, так как увеличили количество сэмплов после того, как получили первый результат. Узнайте больше о том , что такое P-Hacking и как его избежать?

Что такое анализ мощности?

Как мы видели в приведенном выше примере, мы обнаружили, что размер выборки был небольшим, и позже мы увеличили его. Это неправильно и никогда не должно быть сделано. Значение размера выборки должно быть задано до начала самого теста. Но какое значение размера выборки нам подходит?

Давайте рассмотрим пример, в котором мы проводим несколько тестов, используя размер выборки всего лишь 1. Поэтому, когда мы случайным образом выбираем 1 точку данных из совокупности, она может быть либо около среднего значения, которое правильно представляет наши данные, либо может быть также много. далеко от среднего и плохо представляет данные.

Проблема возникает, когда мы проводим статистические тесты, используя эти удаленные точки данных. P-значение, которое мы получим, будет неверным. Теперь мы проведем еще одну серию тестов, взяв за размер выборки 2. Теперь, даже если одно значение находится далеко от среднего значения данных, другое значение, которое находится на другой стороне распределения, сдвинет среднее из них к центру, тем самым уменьшая эффект этого далекого значения. Следовательно, при размере выборки 2 наши результаты будут более верными при правильных P-значениях.

Анализ мощности — это метод, используемый для определения правильного размера выборки, необходимого для проведения тестов как можно лучше. Чем выше Мощность, что нам нужно больше, тем больше потребуется размер выборки. Таким образом, вы можете подумать, почему бы просто не взять большой размер выборки, потому что большой размер выборки означает лучшие и более надежные результаты. Это неправильно, так как сбор данных требует больших затрат и необходимо знать размер выборки.

Как провести анализ мощности?

Сила теста зависит от некоторых факторов. Первым шагом для проведения анализа мощности является установка значения мощности. Учтите, что вы установили общую степень 0,8, а это означает, что вы хотите иметь как минимум 80%-й шанс правильно отвергнуть нулевую гипотезу. Если мы проверяем влияние вакцины против COVID-19 на группу людей, мы хотим доказать, что распределение точек данных у вакцинированных людей отличается от распределения у людей, которым давали плацебо.

1. Количество перекрытий

Нам нужно учитывать степень перекрытия между двумя сравниваемыми распределениями. Чем больше перекрытие, тем сложнее нам будет безопасно отклонить нуль, и, следовательно, нам понадобится больший размер выборки. Однако, если перекрытие очень мало, то мы можем довольно легко и безопасно отклонить нуль. И нам потребуется гораздо меньший размер выборки. Перекрытие зависит от расстояния между средними значениями двух распределений и их стандартными отклонениями.

2. Размер эффекта

Размер эффекта - это способ объединить эффекты разницы между средними значениями и стандартными отклонениями популяций. Величина эффекта (d) рассчитывается как оценочная разница между средними значениями, деленная на объединенные оценочные стандартные отклонения. Одним из самых простых способов расчета объединенных оценочных стандартных отклонений является квадратный корень из квадрата суммы стандартных отклонений, деленного на 2.

Итак, когда у нас есть значение мощности, альфа-значение и размер эффекта, мы можем подключить эти значения к калькулятору статистической мощности и получить значение размера выборки. Такой калькулятор мощности статистики легко доступен в Интернете.

Получите сертификат по науке о данных от лучших университетов мира. Изучите программы Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Прежде чем ты уйдешь

Мы рассчитали размер выборки, выполнив анализ мощности с использованием мощности, альфа-канала и размера эффекта. Таким образом, если мы получили значение размера выборки 7, это будет означать, что нам нужен размер выборки 7, чтобы иметь 80%-й шанс правильно отвергнуть нулевую гипотезу. Наличие необходимого объема знаний в предметной области также имеет решающее значение для оценки средних значений населения и их перекрытий, а также требуемой мощности.

Если вам интересно узнать о науке о данных, ознакомьтесь с дипломом IIIT-B & upGrad PG в области науки о данных, который создан для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1- on-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

Что такое анализ мощности?

Мощность теста или анализа мощности - это вероятность правильного отклонения нулевой гипотезы, когда она ложна. Или, другими словами, мощность обратно пропорциональна вероятности совершения ошибки второго рода. Следовательно, Мощность = 1-β. Например, если мы устанавливаем мощность равной 80%, то мы имеем в виду, что 80% наших статистических тестов являются правильными, а не поддельными. Следовательно, чем выше значение мощности, тем меньше вероятность совершения ошибки 2-го рода. Анализ мощности предназначен для предотвращения неправильных решений, поскольку мы обрабатываем различные случайные выборки, и существует высокая вероятность того, что их среднее значение даст нереалистичное среднее значение и приведет к принятию неверных решений.

Какие факторы учитываются при проведении нашего анализа мощности?

Есть определенные факторы, которые влияют на тест для анализа мощности. Самый первый шаг – установить значение мощности. Предположим, у нас есть значение степени 0,7, что означает, что у вас есть 70% шанс отвергнуть нулевую гипотезу. Ниже приведены факторы, влияющие на анализ мощности. Величина перекрытия — это перекрытие между двумя сравниваемыми распределениями. Перекрытие должно быть как можно меньше, поскольку количество перекрытий прямо пропорционально сложности вычисления нуля. Размер эффекта — это метод определения разницы между средним значением и стандартным отклонением популяций. Он обозначается «d» и рассчитывается как оценочная разница между средними, деленная на объединенные оценочные стандартные отклонения. Поскольку теперь у нас есть значение мощности, альфа-значение (количество перекрытий) и размер эффекта, мы можем легко выполнить анализ мощности.

Что такое P-взлом?

P-Hacking или Data Dredging — это метод неправильного использования методов анализа данных для поиска закономерностей в данных, которые кажутся значимыми, но не являются таковыми. Этот метод негативно влияет на исследование, так как дает ложные обещания предоставить значимые шаблоны данных, что, в свою очередь, может привести к резкому увеличению количества ложных срабатываний. P-взлом нельзя полностью предотвратить, но есть несколько методов, которые наверняка уменьшат его и помогут избежать ловушки.