Меню

Что такое мощность статистика

9.Что такое статистическая мощность исследования и от чего она зависит?

Нужно ли исследователю учитывать её при планировании исследования, и

если да, то как это сделать?

Статистическая мощность анализа (1-β): вероятность того, что мы на выборке примем гипотезу H1, если на самом деле она верна (= шанс обнаружить эффект, если он на самом деле есть).

• Размер эффекта, пример: Корреляция между приёмом аспирина и снижением риска сердечного приступа: r = 0.034, r2 = 0.0012. Но это значит, что 34 человека из 1000 могут предотвратить приступ, принимая аспирин.

Статистическая мощность зависит от…

– объёма выборки: чем он больше, тем она выше;

– размера эффекта: чем он сильнее, тем она выше;

– от используемого статистического критерия: для разных статистических критериев, проверяющих одну и ту же гипотезу, она будет разной.

• Является критерием для определения объёма выборки с учётом размера ожидаемого эффекта.

• Важно! Только высокая мощность (0,95 и выше) даёт нам возможность делать достоверный вывод о том, что искомый эффект отсутствует (верна H0).

• При недостаточной статистической мощности подобный вывод является необоснованным (правильный вывод: мы не обнаружили эффект, но не можем сказать, есть он или нет).

Анализ статистической мощности и оценка объема выборки являются важным этапом планирования эксперимента, так как без этих вычислений объем данных может быть слишком большим, либо, напротив, слишком маленьким, чтобы получить надежные результаты. Если объем выборки слишком мал, то у вас имеется небольшая вероятность того, что проведенное вами экспериментальное исследование (массовый опрос и др.) даст надежный результат. Напротив, если объем выборки слишком большой, то время, потраченное на сбор данных и большие финансовые расходы, связанные с этим, не принесут ожидаемого эффекта.

В спец.программах, например во вражеской Statistika есть специальный модуль — Анализ мощности. Тут доступны графические и аналитические процедуры, позволяющие оценить мощность и объем выборки различных процедур статистического анализа.

Назовем исходную гипотезу «нулевая гипотеза» — H0 . Соберем данные. Используя статистическую теорию, видим, что гипотеза H0, вероятно, неверна и должна быть отвергнута.

Отвергая H0, вы обосновываете то, во что действительно верите. Эта ситуация, типичная во многих областях приложения, называется критерий отвержения-принятия — «Reject-Support testing,» (RS testing); отвергая нулевую гипотезу, вы подтверждаете теорию.

Нулевая гипотеза либо справедлива, либо ошибочна, и статистическая процедура недвусмысленно указывает на это. Нулевая гипотеза либо отвергается, либо не отвергается. Следовательно, до проведения эксперимента вы постулируете, что имеют место только 4 возможности, показанные ниже:

HO H1
H0 Правильное принятие Ошибка II рода
H1 Ошибка I рода Правильное отвержение

Заметим, что имеются ошибки двух типов, показанные в этой таблице. Авторы многих учебников обычно придерживаются такой точки зрения, что Ошибка I рода должна принимать значение .05 или ниже, тогда как Ошибка II рода должна быть столь малой, насколько это возможно при фиксированном уровне ошибки 1 рода. «Статистическая мощность», которая равна 1 — , соответственно, должна быть максимально высокой. ( у Жени в презентации – 0,95)

Например, в двухгрупповом эксперименте, включающем сравнение средних в двух группах — экспериментальной и контрольной, исследователь верит, что лекарство приносит эффект и ищет подтверждение своим предположениям с помощью критерия, который значимо отвергает нулевую гипотезу, состоящую в том, что эффекта нет (средние равны).

В таком исследовании ошибка II рода является трагедией, потому что теория, которая действительно верна, ошибочно отвергается. Очевидно, мы должны действовать так, чтобы уменьшить эту ошибку, т.е. максимизировать мощность критерия. К сожалению, нельзя одновременно уменьшать обе ошибки, и на практике приходится находить компромисс между ними.

В некоторых случаях просто невозможно иметь дело с очень большими выборками — с такой ситуацией мы сталкиваемся, например, в социальных или психологических исследованиях. В таких задачах исследователи иногда тратят несколько дней на то, чтобы получить интервью одного человека. В результате в течение года можно обследовать 50 субъектов. Корреляционные критерии в таких случаях имеют очень низкую мощность (так как объем выборки слишком мал). В таких случаях лучше взять значение выше .05, тогда требуемая мощность может быть достигнута.

С другой стороны, возможно, мощность оказывается слишком большой. Например, можно проверять гипотезу о равенстве двух средних в популяции (Mu1 = Mu2), основываясь на миллионе наблюдений в каждой из сравниваемых групп. В такой ситуации даже при тривиальных (почти нулевых) различиях между группами нулевая гипотеза по существу всегда будет отвергнута.

Оценка мощности. При планировании эксперимента нужно помнить, что мощность должна быть разумно высокой, чтобы обнаружить разумные отклонения от нулевой гипотезы

Факторы, влияющие на мощность статистических тестов. (повторение мать учения): Важно какой именно статистический критерий применяется. Некоторые статистические тесты по своей природе имеют большую мощность, чем другие. Важен объем выборки (количество наблюдений, на основании которых делается вывод). Вообще говоря, чем больше объем данных, тем больше мощность. Однако увеличение числа наблюдений связано с финансовыми и временными затратами. Следовательно, важно сделать объем выборки «разумно большим». Величина экспериментальных эффектов. Уровень ошибки в экспериментальных измерениях. Ошибка измерения интерпретируется как «шум», который может скрыть «сигнал» в реальных экспериментах. Следовательно, все действия, улучшающие точность и надежность измерения, могут увеличить статистическую мощность.

Источник



Что такое мощность статистика

Мощность статистических критериев

Мощность статистического критерия представляет собой вероятность отвержения нулевой гипотезы, когда она фактически неверна. Иными словами, мощность говорит нам о том, насколько вероятно в данном исследовании получить статистически значимый результат, если искомая закономерность действительно имеет место в генеральной совокупности. Из этого определения следует, что любой исследователь кровно заинтересован в высоком значении мощности используемого статистического критерия.

Читайте также:  Полигоны тбо проектная мощность

Мощность критерия является функцией трех вещей: 1) степени, в которой проявляет себя искомая закономерность («величина эффекта»), 2) избранного исследователем уровня статистической значимости (альфа, вероятность ошибочного отбрасывания нулевой гипотезы), 3) объема выборки из генеральной совокупности.

Каждую из этих четырех величин можно выразить через три оставшиеся. Джейкоб Коэн, энтузиаст анализа мощности в психологических исследованиях, в своей монографии [1] приводит огромное количество таблиц, с помощью которых можно определять мощность и необходимый объем выборки, не прибегая к трудоемким вычислениям. По мнению Коэна, трудности, которые возникают у исследователей при анализе мощности, частично объясняются тем, что в психологии в целом отсутствует четкое представление о степени выраженности исследуемых феноменов. Поэтому еще одним немаловажным достоинством его работы является разработка показателей величины эффекта и операционализация понятий «слабый», «средний» и «выраженный» эффект для наиболее распространенных статистических критериев.

К настоящему времени разработано большое количество статистических программ, предназначенных для анализа мощности. Данное сообщение посвящено пакету pwr, которым можно воспользоваться в рамках среды R.

Рассмотрим для примера работу с функцией pwr.r.test, предназначенной для анализа мощности коэффициента корреляции Пирсона, одного из наиболее распространенных в психологии показателей величины эффекта. Дж. Коэн предложил для коэффициента корреляции такие операциональные определения величины эффекта: 0.1 — слабая корреляция, 0.3 — средняя корреляция, 0.5 — значительная корреляция (замечу, что его классификация существенно отличается от того, что можно встретить в пособиях по анализу данных. Так, в [2] величина корреляции до 0.5 включительно рассматривается как слабая).

Аргументами этой функции являются:
n — объем выборки;
r — значение коэффициента корреляции;
sig.level — уровень статистической значимости;
power — мощность критерия;
alternative — строка, указывающая на тип альтернативной гипотезы: «two.sided» (ненаправленная), «greater», «less» (направленные).

При вызове функции только один из аргументов n, r, sig.level или power должен быть опущен, чтобы его можно было вычислить на основании оставшихся. Исключение составляет лишь аргумент sig.level, имеющий значение по умолчанию 0.05, поэтому ему передают значение NULL, если функция должна вычислить уровень значимости.

Рассмотрим такую задачу. Пускай предполагаемая исследователем сила связи в генеральной совокупности описывается как средняя, при этом он хочет обеспечить вероятность обнаружения этой зависимости на уровне 0.8, уровень статистической значимости установлен им в 0.05 и альтернативная гипотеза является ненаправленной:

Таким образом, чтобы с высокой вероятностью обнаруживать среднюю по величине связь, нужно иметь не менее 85 испытуемых. Если повысить уровень статистической значимости до 0.01, то объем выборки возрастет до 125 человек. Если связь между переменными предполагается слабой (самый распространенный в психологии вариант вследствие невысокой валидности измерения и комплексного характера взаимосвязей), то понадобится 1163 испытуемых. Используя рассмотренные вычисления на этапе планирования исследования, ученый может составить четкое представление о том, какой объем выборки ему может понадобиться, чтобы обнаруживать искомую закономерность с заданной величиной эффекта. Важно подчеркнуть, что необходимость представлять себе величину эффекта перед началом исследования существенно меняет акценты по сравнению с обычной практикой.

Рассматриваемая функция помогает отвечать и на другие вопросы. Например: если я располагаю выборкой в 30 человек и собираюсь обнаружить связь средней силы при установленном уровне значимости в 0.01, то какой будет мощность критерия? Оказывается, она в этом случае составит всего 0.156, т.е. существует крайне незначительная вероятность обнаружения данной закономерности.

Еще один пример. Какого рода эффекты я смогу обнаруживать с вероятностью 0.8, на уровне статистической значимости 0.01, если объем выборки составляет 100 человек? Ответ — 0.334, т.е. среднюю по величине зависимость.

Помимо функции pwr.r.test, в пакете pwr имеется богатый набор инструментов для работы с наиболее распространенными статистическими критериями:

pwr.p.test: критерий для одной доли
pwr.2p.test, pwr.2p2n.test: критерий значимости различия двух долей
pwr.t.test, pwr.t2n.test: критерий Стььюдента
pwr.anova.test: однофакторный дисперсионный анализ для сбалансированных планов
pwr.chisq.test: критерий хи-квадрат
pwr.f2.test: регрессионный анализ
Ряд функций предназначен для вычисления величины эффекта: ES.h (доли), ES.w1 (критерий согласия), ES.w2 (меры связи). Функция cohen.ES дает возможность вывести величину эффекта для заданного критерия и уровня.

1. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum
2. Бююль А., Цефель П. SPSS: искусство обработки информации, изд-во DiaSoft, 2005 Метки: pwr, величина эффекта, мощность

Источник

Нежное введение в статистический анализ мощности и мощности в Python

Дата публикации 2018-07-13

Статистическая сила теста гипотезы — это вероятность обнаружения эффекта, если для обнаружения присутствует настоящий эффект.

Мощность может быть рассчитана и сообщена для завершенного эксперимента, чтобы прокомментировать уверенность, которую можно было бы получить в выводах, сделанных по результатам исследования. Он также может использоваться в качестве инструмента для оценки количества наблюдений или размера выборки, необходимых для обнаружения эффекта в эксперименте.

В этом руководстве вы откроете для себя важность статистической мощности теста гипотезы, а теперь вычисляете анализ мощности и кривые мощности как часть экспериментального проекта.

После завершения этого урока вы узнаете:

  • Статистическая мощность — это вероятность проверки гипотезы о том, что эффект найден, если эффект найден.
  • Анализ мощности может использоваться для оценки минимального размера выборки, необходимого для эксперимента, с учетом желаемого уровня значимости, размера эффекта и статистической мощности.
  • Как рассчитать и построить анализ мощности для t-теста Стьюдента в Python, чтобы эффективно спланировать эксперимент.

Обзор учебника

Этот урок разделен на четыре части; они есть:

  1. Статистическая проверка гипотез
  2. Что такое статистическая сила?
  3. Анализ мощности
  4. Анализ силы t-критерия Стьюдента

Статистическая проверка гипотез

Тест статистической гипотезы делает предположение о результате, называемом нулевой гипотезой.

Читайте также:  2 что такое алфавит что называется мощностью алфавита

Например, нулевая гипотеза для корреляционного теста Пирсона состоит в том, что нет никакой связи между двумя переменными. Нулевая гипотеза для критерия Стьюдента состоит в том, что нет разницы между средствами двух групп населения.

Тест часто интерпретируется с использованием p-значения, которое представляет собой вероятность наблюдения результата, учитывая, что нулевая гипотеза верна, а не обратная, как это часто бывает с неправильными интерпретациями.

  • р-значение (р): Вероятность получения результата, равного или более экстремального, чем наблюдалось в данных.

При интерпретации p-значения критерия значимости необходимо указать уровень значимости, часто называемый греческой строчной буквой alpha (a). Общим значением для уровня значимости является 5%, записанное как 0,05.

Значение p интересует контекст выбранного уровня значимости. Результатом теста значимости считается «статистически значимый”Если значение p меньше уровня значимости. Это означает, что нулевая гипотеза (что нет результата) отклоняется.

  • p & lt; = альфа: отклонить H0, другое распределение.
  • p & gt; альфа: не удается отклонить H0, то же распределение.
  • Уровень значимости (альфа): Граница для определения статистически значимого результата при интерпретации значения p.

Мы можем видеть, что значение p является просто вероятностью и что в действительности результат может быть другим. Тест может быть неверным. Учитывая р-значение, мы могли бы сделать ошибку в нашей интерпретации.

Есть два типа ошибок; они есть:

  • Ошибка типа I, Отклонить нулевую гипотезу, когда на самом деле нет значительного эффекта (ложное срабатывание). Значение р оптимистично мало.
  • Ошибка типа II, Не отвергайте нулевую гипотезу, когда есть значительный эффект (ложноотрицательный). Значение p пессимистически велико.

В этом контексте мы можем думать об уровне значимости как о вероятности отклонения нулевой гипотезы, если бы она была верной. Это вероятность ошибки типа I или ложного срабатывания.

Что такое статистическая сила?

Статистическая сила или сила проверки гипотезы — это вероятность того, что проверка правильно отклоняет нулевую гипотезу.

То есть вероятность истинно положительного результата. Это полезно только тогда, когда нулевая гипотеза отвергается.

… Статистическая сила — это вероятность того, что тест правильно отклонит ложную нулевую гипотезу. Статистическая сила имеет значение только тогда, когда ноль ложен.

Чем выше статистическая мощность для данного эксперимента, тем ниже вероятность ошибки типа II (ложноотрицательная). Это выше вероятность обнаружения эффекта, когда есть эффект. На самом деле, мощность точно обратна вероятности ошибки типа II.

Более интуитивно, статистическая сила может рассматриваться как вероятность принятия альтернативной гипотезы, когда альтернативная гипотеза верна.

При интерпретации статистической мощности мы ищем экспериментальные установки, которые имеют высокую статистическую мощность.

  • Низкая статистическая мощность: Большой риск совершения ошибок типа II, например, ложный минус.
  • Высокая статистическая мощность: Небольшой риск совершения ошибок типа II

Экспериментальные результаты со слишком низкой статистической мощностью приведут к неверным выводам о значении результатов. Поэтому необходимо искать минимальный уровень статистической мощности.

Обычно планируют эксперименты со статистической мощностью 80% или лучше, например 0,80. Это означает 20% вероятности столкновения с областью типа II. Это отличается от 5% вероятности возникновения ошибки типа I для стандартного значения уровня значимости.

Анализ мощности

Статистическая сила — это одна часть головоломки, которая состоит из четырех взаимосвязанных частей; они есть:

  • Размер эффекта, Количественная величина результата, присутствующего в популяции. Размер эффекта рассчитывается с использованием определенной статистической меры, такой как коэффициент корреляции Пирсона для взаимосвязи между переменными или d Коэна для разницы между группами.
  • Размер образца, Количество наблюдений в выборке.
  • Значимость, Уровень значимости, используемый в статистическом тесте, например, альфа. Часто устанавливается на 5% или 0,05.
  • Статистическая мощность, Вероятность принятия альтернативной гипотезы, если она верна.

Все четыре переменные связаны между собой. Например, больший размер выборки может облегчить обнаружение эффекта, а статистическая мощность в тесте может быть увеличена путем уменьшения уровня значимости.

Анализ мощности включает в себя оценку одного из этих четырех параметров с заданными значениями для трех других параметров. Это мощный инструмент как при разработке, так и при анализе экспериментов, который мы хотим интерпретировать с помощью статистических тестов гипотез.

Например, статистическая мощность может быть оценена с учетом размера эффекта, размера выборки и уровня значимости. Альтернативно, размер выборки может быть оценен с учетом различных желаемых уровней значимости.

Анализ силы отвечает на такие вопросы, как «какая статистическая мощность у моего исследования?» И «какой объем выборки мне нужен?».

Возможно, наиболее распространенное использование энергетического анализа заключается в оценке минимального размера выборки, необходимого для эксперимента.

Анализ мощности обычно проводится перед проведением исследования. Предполагаемый или априорный анализ мощности может использоваться для оценки любого из четырех параметров мощности, но чаще всего используется для оценки требуемых размеров выборки.

Как практик, мы можем начать с разумных значений по умолчанию для некоторых параметров, таких как уровень значимости 0,05 и уровень мощности 0,80. Затем мы можем оценить желаемый минимальный размер эффекта, характерный для проводимого эксперимента. Затем можно использовать анализ мощности для оценки минимального требуемого размера выборки.

Кроме того, можно провести многократный анализ мощности, чтобы получить кривую зависимости одного параметра от другого, такого как изменение размера эффекта в эксперименте с учетом изменения размера выборки. Могут быть созданы более сложные графики, варьирующиеся по трем параметрам. Это полезный инструмент для экспериментального дизайна.

Анализ силы t-критерия Стьюдента

Мы можем конкретизировать идею статистической мощности и анализа мощности на проработанном примере.

В этом разделе мы рассмотрим t-критерий Стьюдента, который является статистическим тестом гипотезы для сравнения средних значений двух выборок гауссовых переменных. Предположение или нулевая гипотеза теста состоит в том, что выборочные популяции имеют одинаковое среднее значение, например что нет никакой разницы между выборками или что образцы взяты из одной и той же популяции.

Читайте также:  Что такое мощность дти

Тест вычислит p-значение, которое может быть интерпретировано относительно того, являются ли выборки одинаковыми (не в состоянии отклонить нулевую гипотезу), или существует статистически значимая разница между выборками (отклонить нулевую гипотезу). Общий уровень значимости для интерпретации значения p составляет 5% или 0,05.

  • Уровень значимости (альфа): 5% или 0,05.

Размер эффекта сравнения двух групп можно определить количественно с помощью меры размера эффекта. Распространенной мерой для сравнения разницы в среднем по двум группам является мера Коэна. Он рассчитывает стандартную оценку, которая описывает разницу с точки зрения количества стандартных отклонений, что средства разные. Большой размер эффекта для d Коэна составляет 0,80 или выше, что обычно принимается при использовании меры.

  • Размер эффекта: D Коэна не менее 0,80.

Мы можем использовать значение по умолчанию и принять минимальную статистическую мощность в 80% или 0,8.

  • Статистическая мощность: 80% или 0,80.

Для данного эксперимента с этими значениями по умолчанию нас может заинтересовать оценка подходящего размера выборки. То есть сколько наблюдений требуется от каждой выборки, чтобы по крайней мере обнаружить эффект 0 80 с вероятностью 80% обнаружения эффекта, если он истинный (20% ошибки типа II), и вероятностью 5% обнаружения эффекта, если такого эффекта нет (ошибка типа I).

Мы можем решить это с помощью анализа мощности.

Библиотека statsmodels предоставляетTTestIndPowerкласс для расчета энергетического анализа для теста Стьюдента с независимыми образцами. Следует отметить, чтоTTestPowerкласс, который может выполнить тот же анализ для парного теста Стьюдента.

Функцияsolve_power ()может быть использован для расчета одного из четырех параметров в анализе мощности. В нашем случае мы заинтересованы в расчете размера выборки. Мы можем использовать функцию, предоставив три части информации, которую мы знаем (альфа,эффект, а такжемощность) и установить размер аргумента, который мы хотим вычислить ответ (nobs1) к «Никто«. Это говорит функции, что рассчитать.

Примечание о размере выборки: у функции есть аргумент под названием ratio, который представляет собой отношение количества выборок в одной выборке к другой. Если ожидается, что обе выборки будут иметь одинаковое количество наблюдений, тогда коэффициент будет равен 1,0. Если, например, ожидается, что вторая выборка будет иметь вдвое меньше наблюдений, то отношение будет 0,5.

Экземпляр TTestIndPower должен быть создан, тогда мы можем вызватьsolve_power ()с нашими аргументами, чтобы оценить размер выборки для эксперимента.

Полный пример приведен ниже.

При выполнении примера вычисляется и печатается примерное количество образцов для эксперимента как 25. Это будет рекомендуемое минимальное количество образцов, необходимое для получения эффекта желаемого размера.

Мы можем пойти еще дальше и рассчитать кривые мощности.

Кривые мощности — это линейные графики, которые показывают, как изменение переменных, таких как размер эффекта и размер выборки, влияет на мощность статистического теста.

функция plot_power ()может быть использован для создания кривых мощности. Зависимая переменная (ось x) должна быть указана по имени в ‘dep_var‘Аргумент. Массивы значений могут быть указаны для размера выборки (Nobs), размер эффекта (effect_size) и значение (альфа) параметры. Затем будет построена одна или несколько кривых, показывающих влияние на статистическую мощность.

Например, мы можем принять значение 0,05 (значение по умолчанию для функции) и исследовать изменение размера выборки между 5 и 100 при низких, средних и высоких эффектах.

Полный пример приведен ниже.

При выполнении примера создается график, показывающий влияние на статистическую мощность (ось Y) для трех разных размеров эффекта (эс), поскольку размер выборки (ось X) увеличивается.

Мы можем видеть, что, если мы заинтересованы в большом эффекте, точка снижения доходности с точки зрения статистической мощности возникает в пределах 40-50 наблюдений.

Полезно, statsmodels имеетклассы для выполнения анализа мощностис другими статистическими тестами, такими как F-тест, Z-тест и критерий хи-квадрат.

расширения

В этом разделе перечислены некоторые идеи по расширению учебника, которые вы, возможно, захотите изучить.

  • Постройте кривые мощности различных стандартных уровней значимости в зависимости от размера выборки.
  • Найдите пример исследования, которое сообщает статистическую силу эксперимента.
  • Подготовьте примеры анализа производительности для других статистических тестов, предоставляемых statsmodels.

Если вы исследуете какое-либо из этих расширений, я хотел бы знать.

Дальнейшее чтение

Этот раздел предоставляет больше ресурсов по теме, если вы хотите углубиться.

документы

книги

  • Основное руководство по размерам эффектов: статистическая мощность, мета-анализ и интерпретация результатов исследований, 2010.
  • Понимание новой статистики: размеры эффектов, доверительные интервалы и метаанализ2011
  • Статистический анализ мощности для поведенческих наук1988
  • Прикладной анализ мощности для поведенческих наук, 2010.
  • Statsmodels Расчет мощности и размера выборки
  • statsmodels.stats.power.TTestPower API
  • statsmodels.stats.power.TTestIndPower
  • API statsmodels.stats.power.TTestIndPower.solve_power ()
    API statsmodels.stats.power.TTestIndPower.plot_power ()
  • Статистическая мощность в Statsmodels, 2013.
  • Графики власти в стат-моделях, 2013.

статьи

  • Статистическая мощность в Википедии
  • Статистическая проверка гипотез в Википедии
  • Статистическая значимость в Википедии
  • Определение размера выборки в Википедии
  • Размер эффекта в Википедии
  • Ошибки типа I и типа II в Википедии

Резюме

В этом уроке вы обнаружили статистическую мощность теста гипотез и способы расчета анализа мощности и кривых мощности как части экспериментального проекта.

В частности, вы узнали:

  • Статистическая мощность — это вероятность проверки гипотезы о том, что эффект найден, если эффект найден.
  • Анализ мощности может использоваться для оценки минимального размера выборки, необходимого для эксперимента, с учетом желаемого уровня значимости, размера эффекта и статистической мощности.
  • Как рассчитать и построить анализ мощности для t-теста Стьюдента в Python, чтобы эффективно спланировать эксперимент.

У вас есть вопросы?
Задайте свои вопросы в комментариях ниже, и я сделаю все возможное, чтобы ответить.

Источник