Критерий Пирсона для проверки гипотезы о виде закона распределения случайной величины. Проверка гипотез о нормальном, показательном и равномерном распреде-лениях по критерию Пирсона. Критерий Колмогорова . Приближенный метод проверки нормальности распределения, связанный с оценками коэффициентов асимметрии и эксцесса.
В предыдущей лекции рассматривались гипотезы, в которых закон распределения генеральной совокупности предполагался известным. Теперь займемся проверкой гипотез о предполагаемом законе неизвестного распределения, то есть будем проверять нулевую гипотезу о том, что генеральная совокупность распределена по некоторому известному закону. Обычно статистические критерии для проверки таких гипотез называются критериями согласия .
Достоинством критерия Пирсона является его универсальность: с его помощью можно проверять гипотезы о различных законах распределения.
1. Проверка гипотезы о нормальном распределении.
Пусть получена выборка достаточно большого объема п с большим количеством различ-ных значений вариант. Доя удобства ее обработки разделим интервал от наименьшего до наибольшего из значений вариант на s равных частей и будем считать, что значения вари
ант, попавших в каждый интервал, приближенно равны числу, задающему середину интервала. Подсчитав число вариант, попавших в каждый интервал, составим так называемую сгруппированную выборку:
варианты х 1 х 2 х s
частоты п 1 п 2 п s ,
где х i - значения середин интервалов, а п i - число вариант, попавших в i -й интервал (эмпи-рические частоты).
По полученным данным можно вычислить выборочное среднее и выборочное среднее квадратическое отклонение σ В . Проверим предположение, что генеральная совокупность распределена по нормальному закону с параметрами M (X ) = , D (X ) = . Тогда можно найти количество чисел из выборки объема п , которое должно оказаться в каждом интер-вале при этом предположении (то есть теоретические частоты). Для этого по таблице значений функции Лапласа найдем вероятность попадания в i -й интервал:
,
где а i и b i - границы i -го интервала. Умножив полученные вероятности на объем выборки п, найдем теоретические частоты: п i =n?p i . Наша цель - сравнить эмпирические и теоретические частоты, которые, конечно, отличаются друг от друга, и выяснить, являются ли эти различия несущественными, не опровергающими гипотезу о нормальном распределении исследуемой случайной величины, или они настолько велики, что противоречат этой гипотезе. Для этого используется критерий в виде случайной величины
. (20.1)
Смысл ее очевиден: суммируются части, которые квадраты отклонений эмпирических частот от теоретических составляют от соответствующих теоретических частот. Можно доказать, что вне зависимости от реального закона распределения генеральной совокупно-сти закон распределения случайной величины (20.1) при стремится к закону распределения (см. лекцию 12) с числом степеней свободы k = s - 1 - r , где r - число параметров предполагаемого распределения, оцененных по данным выборки. Нормальное распределение характеризуется двумя параметрами, поэтому k = s - 3. Для выбранного критерия строится правосторонняя критическая область, определяемая условием
(20.2)
где α - уровень значимости. Следовательно, критическая область задается неравенством а область принятия гипотезы - .
Итак, для проверки нулевой гипотезы Н 0: генеральная совокупность распределена нормально - нужно вычислить по выборке наблюдаемое значение критерия:
, (20.1`)
а по таблице критических точек распределения χ 2 найти критическую точку , используя известные значения α и k = s - 3. Если - нулевую гипотезу принимают, при ее отвергают.
2. Проверка гипотезы о равномерном распределении.
При использовании критерия Пирсона для проверки гипотезы о равномерном распределе-нии генеральной совокупности с предполагаемой плотностью вероятности
необходимо, вычислив по имеющейся выборке значение , оценить параметры а и b по формулам:
где а* и b* - оценки а и b . Действительно, для равномерного распределения М (Х ) = , , откуда можно получить систему для определения а* и b *: , решением которой являются выражения (20.3).
Затем, предполагая, что , можно найти теоретические частоты по формулам
Здесь s - число интервалов, на которые разбита выборка.
Наблюдаемое значение критерия Пирсона вычисляется по формуле (20.1`), а критическое - по таблице с учетом того, что число степеней свободы k = s - 3. После этого границы критической области определяются так же, как и для проверки гипотезы о нормальном распределении.
3. Проверка гипотезы о показательном распределении.
В этом случае, разбив имеющуюся выборку на равные по длине интервалы, рассмотрим последовательность вариант , равноотстоящих друг от друга (считаем, что все варианты, попавшие в i - й интервал, принимают значение, совпадающее с его серединой), и соответствующих им частот n i (число вариант выборки, попавших в i - й интервал). Вычислим по этим данным и примем в качестве оценки параметра λ величину . Тогда теоретические частоты вычисляются по формуле
Затем сравниваются наблюдаемое и критическое значение критерия Пирсона с учетом того, что число степеней свободы k = s - 2.
|
Достоинством критерия Пирсона является его универсальность: с его помощью можно проверять гипотезы о различных законах распределения.
1. Проверка гипотезы о нормальном распределении.
Пусть получена выборка достаточно большого объема п с большим количеством различных значений вариант. Для удобства ее обработки разделим интервал от наименьшего до наибольшего из значений вариант на s равных частей и будем считать, что значения вариант, попавших в каждый интервал, приближенно равны числу, задающему середину интервала. Подсчитав число вариант, попавших в каждый интервал, составим так называемую сгруппированную выборку:
варианты………..х 1 х 2 … х s
частоты………….п 1 п 2 … п s ,
где х i – значения середин интервалов, а п i – число вариант, попавших в i -й интервал (эмпирические частоты).
По полученным данным можно вычислить выборочное среднее и выборочное среднее квадратическое отклонение σ В . Проверим предположение, что генеральная совокупность распределена по нормальному закону с параметрами M (X ) = , D (X ) = . Тогда можно найти количество чисел из выборки объема п , которое должно оказаться в каждом интервале при этом предположении (то есть теоретические частоты). Для этого по таблице значений функции Лапласа найдем вероятность попадания в i -й интервал:
,
где а i и b i - границы i -го интервала. Умножив полученные вероятности на объем выборки п, найдем теоретические частоты: п i =n·p i .Наша цель – сравнить эмпирические и теоретические частоты, которые, конечно, отличаются друг от друга, и выяснить, являются ли эти различия несущественными, не опровергающими гипотезу о нормальном распределении исследуемой случайной величины, или они настолько велики, что противоречат этой гипотезе. Для этого используется критерий в виде случайной величины
. (20.1)
Смысл ее очевиден: суммируются части, которые квадраты отклонений эмпирических частот от теоретических составляют от соответствующих теоретических частот. Можно доказать, что вне зависимости от реального закона распределения генеральной совокупности закон распределения случайной величины (20.1) при стремится к закону распределения (см. лекцию 12) с числом степеней свободы k = s – 1 – r , где r – число параметров предполагаемого распределения, оцененных по данным выборки. Нормальное распределение характеризуется двумя параметрами, поэтому k = s – 3. Для выбранного критерия строится правосторонняя критическая область, определяемая условием
(20.2)
где α – уровень значимости. Следовательно, критическая область задается неравенством а область принятия гипотезы - .
Итак, для проверки нулевой гипотезы Н 0: генеральная совокупность распределена нормально – нужно вычислить по выборке наблюдаемое значение критерия:
, (20.1`)
а по таблице критических точек распределения χ 2 найти критическую точку , используя известные значения α и k = s – 3. Если - нулевую гипотезу принимают, при ее отвергают.
2. Проверка гипотезы о равномерном распределении.
При использовании критерия Пирсона для проверки гипотезы о равномерном распределении генеральной совокупности с предполагаемой плотностью вероятности
необходимо, вычислив по имеющейся выборке значение , оценить параметры а и b по формулам:
где а* и b* - оценки а и b . Действительно, для равномерного распределения М (Х ) = , , откуда можно получить систему для определения а* и b *: , решением которой являются выражения (20.3).
Затем, предполагая, что , можно найти теоретические частоты по формулам
Здесь s – число интервалов, на которые разбита выборка.
Наблюдаемое значение критерия Пирсона вычисляется по формуле (20.1`), а критическое – по таблице с учетом того, что число степеней свободы k = s – 3. После этого границы критической области определяются так же, как и для проверки гипотезы о нормальном распределении.
3. Проверка гипотезы о показательном распределении.
В этом случае, разбив имеющуюся выборку на равные по длине интервалы, рассмотрим последовательность вариант , равноотстоящих друг от друга (считаем, что все варианты, попавшие в i – й интервал, принимают значение, совпадающее с его серединой), и соответствующих им частот n i (число вариант выборки, попавших в i – й интервал). Вычислим по этим данным и примем в качестве оценки параметра λ величину . Тогда теоретические частоты вычисляются по формуле
Затем сравниваются наблюдаемое и критическое значение критерия Пирсона с учетом того, что число степеней свободы k = s – 2.
Критерий согласия Пирсона :Пример 1 . Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.
Решение
находим с помощью калькулятора .
x i | Кол-во, f i | x i * f i | Накопленная частота, S | (x - x ср) * f | (x - x ср) 2 * f | (x - x ср) 3 * f | Частота, f i /n |
5 | 15 | 75 | 15 | 114.45 | 873.25 | -6662.92 | 0.075 |
7 | 26 | 182 | 41 | 146.38 | 824.12 | -4639.79 | 0.13 |
9 | 25 | 225 | 66 | 90.75 | 329.42 | -1195.8 | 0.13 |
11 | 30 | 330 | 96 | 48.9 | 79.71 | -129.92 | 0.15 |
13 | 26 | 338 | 122 | 9.62 | 3.56 | 1.32 | 0.13 |
15 | 21 | 315 | 143 | 49.77 | 117.95 | 279.55 | 0.11 |
17 | 24 | 408 | 167 | 104.88 | 458.33 | 2002.88 | 0.12 |
19 | 20 | 380 | 187 | 127.4 | 811.54 | 5169.5 | 0.1 |
21 | 13 | 273 | 200 | 108.81 | 910.74 | 7622.89 | 0.065 |
200 | 2526 | 800.96 | 4408.62 | 2447.7 | 1 |
.
Средняя взвешенная
Показатели вариации
.
.
R = X max - X min
R = 21 - 5 = 16
Дисперсия
Несмещенная оценка дисперсии
Среднее квадратическое отклонение .
Каждое значение ряда отличается от среднего значения 12.63 не более, чем на 4.7
.
.
нормальному закону
n = 200, h=2 (ширина интервала), σ = 4.7, x ср = 12.63
i | x i | u i | φ i | n* i |
1 | 5 | -1.63 | 0,1057 | 9.01 |
2 | 7 | -1.2 | 0,1942 | 16.55 |
3 | 9 | -0.77 | 0,2943 | 25.07 |
4 | 11 | -0.35 | 0,3752 | 31.97 |
5 | 13 | 0.0788 | 0,3977 | 33.88 |
6 | 15 | 0.5 | 0,3503 | 29.84 |
7 | 17 | 0.93 | 0,2565 | 21.85 |
8 | 19 | 1.36 | 0,1582 | 13.48 |
9 | 21 | 1.78 | 0,0804 | 6.85 |
i | n i | n* i | n i -n* i | (n i -n* i) 2 | (n i -n* i) 2 /n* i |
1 | 15 | 9.01 | -5.99 | 35.94 | 3.99 |
2 | 26 | 16.55 | -9.45 | 89.39 | 5.4 |
3 | 25 | 25.07 | 0.0734 | 0.00539 | 0.000215 |
4 | 30 | 31.97 | 1.97 | 3.86 | 0.12 |
5 | 26 | 33.88 | 7.88 | 62.14 | 1.83 |
6 | 21 | 29.84 | 8.84 | 78.22 | 2.62 |
7 | 24 | 21.85 | -2.15 | 4.61 | 0.21 |
8 | 20 | 13.48 | -6.52 | 42.53 | 3.16 |
9 | 13 | 6.85 | -6.15 | 37.82 | 5.52 |
∑ | 200 | 200 | 22.86 |
Её границу K kp = χ 2 (k-r-1;α) находим по таблицам распределения «хи-квадрат» и заданным значениям σ, k = 9, r=2 (параметры x cp и σ оценены по выборке).
Kkp(0.05;6) = 12.59159; Kнабл = 22.86
Наблюдаемое значение статистики Пирсона попадает в критическую область: Кнабл > Kkp, поэтому есть основания отвергать основную гипотезу. Данные выборки распределены не по нормальному закону
. Другими словами, эмпирические и теоретические частоты различаются значимо.
Пример 2
. Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.
Решение
.
Таблица для расчета показателей.
x i | Кол-во, f i | x i * f i | Накопленная частота, S | (x - x ср) * f | (x - x ср) 2 * f | (x - x ср) 3 * f | Частота, f i /n |
0.3 | 6 | 1.8 | 6 | 5.77 | 5.55 | -5.34 | 0.03 |
0.5 | 9 | 4.5 | 15 | 6.86 | 5.23 | -3.98 | 0.045 |
0.7 | 26 | 18.2 | 41 | 14.61 | 8.21 | -4.62 | 0.13 |
0.9 | 25 | 22.5 | 66 | 9.05 | 3.28 | -1.19 | 0.13 |
1.1 | 30 | 33 | 96 | 4.86 | 0.79 | -0.13 | 0.15 |
1.3 | 26 | 33.8 | 122 | 0.99 | 0.0375 | 0.00143 | 0.13 |
1.5 | 21 | 31.5 | 143 | 5 | 1.19 | 0.28 | 0.11 |
1.7 | 24 | 40.8 | 167 | 10.51 | 4.6 | 2.02 | 0.12 |
1.9 | 20 | 38 | 187 | 12.76 | 8.14 | 5.19 | 0.1 |
2.1 | 8 | 16.8 | 195 | 6.7 | 5.62 | 4.71 | 0.04 |
2.3 | 5 | 11.5 | 200 | 5.19 | 5.39 | 5.59 | 0.025 |
200 | 252.4 | 82.3 | 48.03 | 2.54 | 1 |
Показатели центра распределения
.
Средняя взвешенная
Показатели вариации
.
Абсолютные показатели вариации
.
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = X max - X min
R = 2.3 - 0.3 = 2
Дисперсия
- характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).
Несмещенная оценка дисперсии
- состоятельная оценка дисперсии.
Среднее квадратическое отклонение
.
Каждое значение ряда отличается от среднего значения 1.26 не более, чем на 0.49
Оценка среднеквадратического отклонения
.
Проверка гипотез о виде распределения
.
1. Проверим гипотезу о том, что Х распределено по нормальному закону
с помощью критерия согласия Пирсона.
где n* i - теоретические частоты:
Вычислим теоретические частоты, учитывая, что:
n = 200, h=0.2 (ширина интервала), σ = 0.49, x ср = 1.26
i | x i | u i | φ i | n* i |
1 | 0.3 | -1.96 | 0,0573 | 4.68 |
2 | 0.5 | -1.55 | 0,1182 | 9.65 |
3 | 0.7 | -1.15 | 0,2059 | 16.81 |
4 | 0.9 | -0.74 | 0,3034 | 24.76 |
5 | 1.1 | -0.33 | 0,3765 | 30.73 |
6 | 1.3 | 0.0775 | 0,3977 | 32.46 |
7 | 1.5 | 0.49 | 0,3538 | 28.88 |
8 | 1.7 | 0.89 | 0,2661 | 21.72 |
9 | 1.9 | 1.3 | 0,1691 | 13.8 |
10 | 2.1 | 1.71 | 0,0909 | 7.42 |
11 | 2.3 | 2.12 | 0,0422 | 3.44 |
Сравним эмпирические и теоретические частоты. Составим расчетную таблицу, из которой найдем наблюдаемое значение критерия:
Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение K набл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: }