Меню

Под мощностью критерия понимается вероятность не совершить ошибку второго рода то есть

Вероятности ошибок (уровень значимости и мощность)

Вероятность ошибки первого рода при проверке статистических гипотез называют уровнем значимости и обычно обозначают греческой буквой (отсюда название -errors).

Вероятность ошибки второго рода не имеет какого-то особого общепринятого названия, на письме обозначается греческой буквой (отсюда -errors). Однако с этой величиной тесно связана другая, имеющая большое статистическое значение — мощность критерия. Она вычисляется по формуле . Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.

Обе эти характеристики обычно вычисляются с помощью так называемой функции мощности критерия. В частности, вероятность ошибки первого рода есть функция мощности, вычисленная при нулевой гипотезе. Для критериев, основанных на выборке фиксированного объема, вероятность ошибки второго рода есть единица минус функция мощности, вычисленная в предположении, что распределение наблюдений соответствует альтернативной гипотезе. Для последовательных критериев это также верно, если критерий останавливается с вероятностью единица (при данном распределении из альтернативы).

В статистических тестах обычно приходится идти на компромисс между приемлемым уровнем ошибок первого и второго рода. Зачастую для принятия решения используется пороговое значение, которое может варьироваться с целью сделать тест более строгим или, наоборот, более мягким. Этим пороговым значением является уровень значимости, которым задаются при проверке статистических гипотез. Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная тревога), а понижение чувствительности — к увеличению риска ошибки второго рода (пропуск запрещённого предмета).

16. Приведите формулу расчета коэффициента детерминации R 2 и объясните его роль при определении качества построенного уравнения регрессии.

Коэффициент детерминации ( — R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру связи одной случайной величины от множества других. В частном случае линейной зависимости является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.

Истинный коэффициент детерминации модели зависимости случайной величины y от факторов x определяется следующим образом:

где — условная (по факторам x) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

где -сумма квадратов остатков регрессии, — фактические и расчетные значения объясняемой переменной.

— общая сумма квадратов.

В случае линейной регрессии с константой , где — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае — коэффициент детерминации — это доля объяснённой суммы квадратов в общей:

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.

1. Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50% (в этом случае коэффициент множественной корреляции превышает по модулю 70%). Модели с коэффициентом детерминации выше 80% можно признать достаточно хорошими (коэффициент корреляции превышает 90%). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными.

2. При отсутствии статистической связи между объясняемой переменной и факторами, статистика для линейной регрессии имеет асимптотическое распределение , где — количество факторов модели (см. тест множителей Лагранжа). В случае линейной регрессии с нормально распределёнными случайными ошибками статистика имеет точное (для выборок любого объёма) распределение Фишера (см. F-тест). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.

Недостаток и альтернативные показатели

Основная проблема применения (выборочного) заключается в том, что его значение увеличивается ( не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством факторов с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Читайте также:  Теоретические основы производственных мощностей предприятия

Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:

который даёт штраф за дополнительно включённые факторы, где n — количество наблюдений, а k — количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве факторов). Поэтому теряется интерпретация показателя как «доли». Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии или стандартной ошибки модели . Разница только в том, что последние критерии чем меньше, тем лучше.

AIC — информационный критерий Акаике — применяется исключительно для сравнения моделей. Чем меньше значение тем лучше. Часто используется для сравнения моделей временных рядов с разным количеством лагов.
, где k— количество параметров модели.
BIC или SC — байесовский информационный критерий Шварца — используется и интерпретируется аналогично AIC.
. Даёт больший штраф за включение лишних лагов в модель, чем AIC.

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации. Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию . Эта проблема решается с помощью построения обобщённого коэффициента детерминации , который совпадает с исходным для случая МНК регрессии со свободным членом, и для которого выполняются четыре свойства перечисленные выше. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Для случая регрессии без свободного члена:
,
где X — матрица nxk значений факторов, — проектор на плоскость X, , где — единичный вектор nx1.

сусловием небольшой модификации, также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

17. Как производится проверка значимости уравнения регрессии по F-критерию Фишера?

Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью F-критерия Фишера:

, где Dфакт — факторная сумма квадратов на одну степень свободы;

Dост — остаточная сумма квадратов на одну степень свободы;

R2 — коэффициент (индекс) множественной детерминации;

m – число параметров при переменных х

n – число наблюдений.

Частный F-критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по регрессионной модели в целом. Предположим, что оцениваем значимость влияния х1 как дополнительно включенного в модель фактора. Используем следующую формулу:

где — коэффициент множественной детерминации для модели с полным набором факторов;

— тот же показатель, но без включения в модель фактора х1;

n – число наблюдений

m – число параметров в модели (без свободного члена).

Если оцениваем значимость влияния фактора хn после включения в модель факторов x1,x2, …,xn-1, то формула частного F-критерия определится как

В общем виде для фактора xi частный F-критерий Фишера определится как

Фактическое значение F-критерия Фишера сравнивается с табличным при 5%-ном или 1%-ном уровне значимости и числе степеней свободы: m и n-m-1. Если Fфакт>Fтабл(a,n,n-m-1), то дополнительное включение фактора xi в модель статистически оправданно и коэффициент чистой регрессии bi при факторе xi статистически значим. Если же Fфакт Реклама

Источник



Ошибки первого и второго рода: расчет вероятности ошибки первого и второго рода

Проверка статистической гипотезы означает проверку согласования исходных выборочных данных с выдвинутой основной гипотезой. При этом возможно возникновение двух ситуаций – основная гипотеза может подтвердиться, а может и быть опровергнута. Следовательно, при проверке статистических гипотез существует вероятность допустить ошибку, приняв или опровергнув верную гипотезу.

Читайте также:  Может ли блок питания потерять свою мощность

При проверке статистических гипотез можно допустить ошибки первого или второго рода

Ошибкой первого рода – отвергаем верную гипотезу.

Ошибкой второго рода– не отвергаем неверную гипотезу.

Уровнем значимости α называется вероятность совершения ошибки первого рода.

Значение уровня значимости α обычно задаётся близким к нулю (например, 0,05; 0,01;0,02 и т. д.), потому что чем меньше значение уровня значимости, тем меньше вероятность совершения ошибки первого рода, состоящую в опровержении верной гипотезы Н0.

Вероятность совершения ошибки второго рода, т. е. принятия ложной гипотезы, обозначается β

При проверке нулевой гипотезы Н0 возможно возникновение следующих ситуаций:

N. B.! Смотрим распределение вероятностей по распределению верной гипотезы, то есть ошибку второго ищем по Н1, а не по Н0.

1- β – мощность критерия – способность теста обнаруживать альтернативную гипотезу или способность отвергать Н0, когда верна альтернатива (показывает насколько хороша статистика).

Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.

При проверке гипотез возникают ошибки двух типов. Ошибка первого рода — отвергнуть Н 0 , в то время, как она является верной; и ошибка второго рода – принять нулевую гипотезу, которая в действительности является неверной. Вероятность ошибки первого рода называется уровнем значимости и обозначается α. Таким образом, α = Р < U Ψ | H 0>, т.е уровень значимости α – это вероятность события < U Ψ>, вычисленная в предположении о том, что Н 0 верна. Наиболее часто уровень значимости принимают равным 0.05 или 0.01. Если, например, принят уровень значимости, равный 0.05, то это означает, что в пяти случаях из ста мы рискуем допустить ошибку первого рода (отвергнуть правильную гипотезу).

Уровень значимости ошибки однозначно определен, если гипотеза простая (Н 0 : р=1/4 , Н 1 : р 1/4), то есть распределение вероятностей задано точно. Когда же гипотеза сложная, то есть задан тип распределения вероятности с точностью до параметра (Н 0 : р=1/4, Н 1: р 1/4, Н 1: р 1/4, Н 1 0,8)

Для проверки как нулевой так и альтернативной гипотезы используется специально подобранная величина, значение которой точно или приближенно известно, соответственно Z – нормальное распределение, F – Фишер, t – Стьюдент, 2 – «хи-квадрат». После выбора определенного критерия множество всех его возможных значений разделяют на два непересекающихся подмножества: то, где гипотеза принимается, и то, где нет.

Вероятность ошибки второго рода есть P < U Ψ | H 1>. Обычно используют не эту вероятность, а а ее дополнение 1, т.е. P < U Ψ | H 1> = 1 — P < U Ψ | H 1>. Эта величина носит название мощности критерия. Таким образом, мощность критерия – это вероятность того, что нулевая гипотеза будет отвергнута, когда альтернативная верна. Чаще всего мощность критерия обозначается как (1- ), где – ошибка второго рода. Стоит отметить, что мощность критерия – достаточно слабая статистика, потому что ошибки в ней слишком часты.

Поскольку исследователь хочет прийти к правильному выводу, надежные исследования планируются таким образом, чтобы обеспечить низкий уровень а и большую мощность. При низком уровне а крайне мало шансов отвергнуть правильную нулевую гипотезу, а при большой мощности критерия больше шансов принять правильную альтернативную гипотезу.

Существует несколько способов увеличить мощность критерия:

· Повысить уровень значимомсти. Так повышается вероятность отвергнуть нулевую гипотезу и, соответственно, принять верную альтернативную. Вместе с тем растет риск отвергнуть же нулевую гипотезу, которая может оказаться верной, и совершить таким образом ошибку первого рода.

· Формулирование направленных гипотез – исследователь может сосредоточиться на риске с уровнем исходов, которые соответствуют выбранной гипотезе.

· Увеличить размер выборки, т.к статистики, основанные на большом количестве респондентов, более устойчивы и обеспечивают более точную оценку характеристик генеральной совокупности. Т.е прибавка прямым образом повышает вероятность того, что будет принята верная гипотеза.

Источник

Ошибка второго рода и кривые оперативной характеристики в MS EXCEL

Определим выражение для вычисления ошибки второго рода и мощности теста, построим в MS EXCEL кривые оперативной характеристики (Operating-characteristic curves).

Тема этой статьи – вычисление ошибки второго рода (type II error) при проверке гипотез . Основная статья про проверку гипотез находится здесь .

Читайте также:  Через сорок девять часов после ядерного взрыва мощность дозы излучения уменьшается

Напомним, что процедура проверки гипотез состоит из следующих шагов:

  • из исследуемого распределения берется выборка ;
  • на основании значений выборки вычисляется тестовая статистика ;
  • значение тестовой статистики сравнивается со значениями, соответствующим заданному уровню значимости (ошибке первого рода) ;
  • по результату сравнения делается вывод об отклонении (или не отклонении) нулевой гипотезы .

Обычно с проверкой гипотез связывают 2 типа ошибок. Если нулевая гипотеза отклоняется, когда она верна – это ошибка первого рода (обозначается α, альфа ). Если нулевая гипотеза не отклоняется, когда она неверна, то это ошибка второго рода (обозначается β, бета ).

Ошибка первого рода часто называется риском производителя. Это осознанный риск, на который идет производитель продукции, т.к. он определяет вероятность того, что годная продукция может быть забракована, хотя на самом деле она таковой не является. Величина ошибки первого рода задается перед проверкой гипотезы , таким образом, она контролируется исследователем напрямую и может быть задана в соответствии с условиями решаемой задачи. После этого, процедура проверки гипотезы составляется таким образом, чтобы вероятность ошибки второго рода была как можно меньше.

Ошибка второго рода β зависит от размера выборки n и уровня значимости α , и поэтому контролируется косвенно. Чем больше размер выборки , тем меньше ошибка второго рода (при прочих равных).

Часто также используют величину 1-β , которая называется мощностью статистического критерия (мощностью теста, мощностью исследования, англ. power of a statistical test). Мощность статистического критерия — это вероятность правильно отклонить нулевую гипотезу. Чем ближе эта величина к единице, тем меньше у нас шансов ошибиться при проверке гипотезы (тем лучше критерий различает гипотезы Н 0 и Н 1 ).

Ошибку второго рода вычисляют для каждого вида проверки гипотез по-разному. Получим выражение для вычисления ошибки второго рода для проверки двусторонней гипотезы о равенстве среднего значения распределения некоторой величине (стандартное отклонение известно) .

Для проверки гипотезы этого типа используется тестовая статистика Z 0 :

Чтобы найти Ошибку второго рода необходимо предположить, что гипотеза Н 0 : μ=μ 0 не верна, и соответственно истинное среднее значение распределения μ=μ 0 +Δ, где Δ>0. В этом случае, тестовая статистика Z 0 будет иметь нормальное распределение N(Δ√n/σ;1), т.е. будет смещено вправо на Δ√n/σ (см. файл примера на листе Бета ).

Согласно определения, ошибка второго рода равна вероятности, принять нулевую гипотезу, если на самом деле справедлива Н 1 . Эта вероятность соответствует выделенной на рисунке области. Статистика Z 0 , в этом случае, примет значение между -Z α/2 и Z α/2 (эти значения соответствуют границам доверительного интервала ). Z α/2 – это верхний α/2-квантиль стандартного нормального распределения .

Определим ошибку второго рода в терминах стандартного нормального распределения :

Это выражение будет работать и для Δ ошибка второго рода является функцией от α, Δ и n. В файле примера на листе Бета можно быстро рассчитать β и мощность теста в зависимости от этих параметров. Диаграмма, приведенная выше, будет автоматически перестроена.

Для заданного значения α часто строят семейство кривых, которые иллюстрируют зависимость ошибки второго рода от Δ и n. Такие кривые называются операционными характеристиками (Operating-characteristic curves).

Как видно из рисунка, чем дальше истинное значение среднего от μ 0 , т.е. чем больше Δ, тем меньше ошибка второго рода. Таким образом, для заданных α и n, тест легче определит большие отклонения от среднего , чем малые (тест обладает, в данном случае, большей мощностью ). При росте n мощность теста также растет.

Кривые операционных характеристик используются для оценки размера выборки , достаточного для определения заданной разницы между истинным значением среднего μ от μ 0 с требуемой вероятностью.

В файле примера на листе ОХ создана форма для определения размера выборки , достаточного для обеспечения заданной мощности теста .

Например, Н 0 : μ 0 =20, истинное значение μ=20,05, стандартное отклонение =0,1, α=0,05. Чтобы вероятность правильно отклонить гипотезу H 0 была равна 0,9 ( мощность теста ), размер выборки должен быть 42 или более.

Примечание : Для нахождения размера выборки потребуется использование инструмента MS EXCEL Подбор параметра .

Источник

Adblock
detector