Что такое группировка статистических данных, и как она связана с рядами распределения, было рассмотрено этой лекции, там же можно узнать, о том что такое дискретный и вариационный ряд распределения.

Ряды распределения одна из разновидностей статистических рядов (кроме них в статистике используются ряды динамики), используются для анализа данных о явлениях общественной жизни. Построение вариационных рядов вполне посильная задача для каждого. Однако есть правила, которые необходимо помнить.

Как построить дискретный вариационный ряд распределения

Пример 1. Имеются данные о количестве детей в 20 обследованных семьях. Построить дискретный вариационный ряд распределения семей по числу детей .

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Решение:

  1. Начнем с макета таблицы, в которую затем мы внесем данные. Так как ряды распределения имеют два элемента, то таблица состоять будет из двух колонок. Первая колонка это всегда варианта – то, что мы изучаем – ее название берем из задания (конец предложения с заданием в условиях) — по числу детей – значит наша варианта это число детей.

Вторая колонка это частота – как часто встречается наша варианта в исследуемом явление – название колонки так же берем из задания — распределения семей – значит наша частота это число семей с соответствующим количеством детей.

  1. Теперь из исходных данных выберем те значения, которые встречаются хотя бы один раз. В нашем случае это

И расставим эти данные в первой колонке нашей таблицы в логическом порядке, в данном случае возрастающем от 0 до 4. Получаем

И в заключение подсчитаем, сколько же раз встречается каждое значение варианты.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

В результате получаем законченную табличку или требуемый ряд распределения семей по количеству детей.

Задание . Имеются данные о тарифных разрядах 30 рабочих предприятия. Построить дискретный вариационный ряд распределения рабочих по тарифному разряду. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

Как построить интервальный вариационный ряд распределения

Построим интервальный ряд распределения, и посмотрим чем же его построение отличается от дискретного ряда.

Пример 2. Имеются данные о величине полученной прибыли 16 предприятий, млн. руб. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Построить интервальный вариационный ряд распределения предприятий по объему прибыли, выделив 3 группы с равными интервалами.

Общий принцип построения ряда, конечно же, сохраниться, те же две колонки, те же варианта и частота, но в здесь варианта будет располагаться в интервале и подсчет частот будет вестись иначе.

Решение:

  1. Начнем аналогично предыдущей задачи с построения макета таблицы, в которую затем мы внесем данные. Так как ряды распределения имеют два элемента, то таблица состоять будет из двух колонок. Первая колонка это всегда варианта – то, что мы изучаем – ее название берем из задания (конец предложения с заданием в условиях) — по объему прибыли – значит, наша варианта это объем полученной прибыли.

Вторая колонка это частота – как часто встречается наша варианта в исследуемом явление – название колонки так же берем из задания — распределения предприятий – значит наша частота это число предприятий с соответствующей прибылью, в данном случае попадающие в интервал.

В итоге макет нашей таблицы будет выглядеть так:

где i – величина или длинна интервала,

Хmax и Xmin – максимальное и минимальное значение признака,

n – требуемое число групп по условию задачи.

Рассчитаем величину интервала для нашего примера. Для этого среди исходных данных найдем самое большое и самое маленькое

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 – максимальное значение 118 млн. руб., и минимальное 9 млн. руб. Проведем расчет по формуле.

В расчете получили число 36,(3) три в периоде, в таких ситуациях величину интервала нужно округлить до большего, чтобы после подсчетов не потерялось максимальное данное, именно поэтому в расчете величина интервала 36,4 млн. руб.

  1. Теперь построим интервалы – наши варианты в данной задаче. Первый интервал начинают строить от минимального значения к нему добавляется величина интервала и получается верхняя граница первого интервала. Затем верхняя граница первого интервала становится нижней границей второго интервала, к ней добавляется величина интервала и получается второй интервал. И так далее столько раз сколько требуется построить интервалов по условию.

Обратим внимание если бы мы не округлили величину интервала до 36,4, а оставили бы ее 36,3, то последнее значение у нас бы получилось 117,9. Именно для того чтобы не было потери данных необходимо округлять величину интервала до большего значения.

  1. Проведем подсчет количества предприятий попавших в каждый конкретный интервал. При обработке данных необходимо помнить, что верхнее значение интервала в данном интервале не учитывается (не включается в этот интервал), а учитывается в следующем интервале (нижняя граница интервала включается в данный интервал, а верхняя не включается), за исключением последнего интервала.

При проведении обработки данных лучше всего отобранные данные обозначить условными значками или цветом, для упрощения обработки.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Первый интервал обозначим желтым цветом – и определим сколько данных попадает в интервал от 9 до 45,4, при этом данное 45,4 будет учитываться во втором интервале (при условии что оно есть в данных) – в итоге получаем 7 предприятий в первом интервале. И так дальше по всем интервалам.

  1. (дополнительное действие ) Проведем подсчет общего объема прибыли полученного предприятиями по каждому интервалу и в целом. Для этого сложим данные отмеченные разными цветами и получим суммарное значение прибыли.

По первому интервалу — 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 млн. руб.

По второму интервалу — 48 + 57 + 48 + 56 + 63 = 272 млн. руб.

По третьему интервалу — 118 + 87 + 98 + 88 = 391 млн. руб.

Задание . Имеются данные о величине вклада в банке 30 вкладчиков, тыс. руб. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Построить интервальный вариационный ряд распределения вкладчиков, по размеру вклада выделив 4 группы с равными интервалами. По каждой группе подсчитать общий размер вкладов.

Наиболее простым способом обобщения статистического материала является построение рядов. Результатом сводки статистического исследования могут быть ряды распределения.

После определения группировочного признака, количества групп и интервалов группировки данные сводки и группировки представляются в виде рядов распределения и оформляются в виде статистических таблиц.

Ряд распределния является одним из видов группировок.

Рядом распределения в статистике называется упорядоченное распределение единиц совокупности на группы по какому-либо одному признаку: по качественному или количественному.

  1. Виды рядов распределения

В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:

    атрибутивными называют ряды распределения, построенные по качественными признакам;

    вариационными называют ряды распределения, построенные в порядке возрастания или убывания значений количественного признака.

Вариационный ряд распределения состоит из двух столбцов. В первом столбце приводятся количественные значения варьирующегося признака, которые называются вариантами и обозначаются. Дискретная варианта - выражается целым числом. Интервальная варианта находится в пределах от и до. В зависимости от типа варианты можно построить дискретный или интервальный вариационный ряд. Во втором столбце содержится количество конкретных вариант, выраженное через частоты или частости:

    частоты - это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака; сумма всех частот должна быть равна численности единиц всей совокупности;

    частости - это частоты выраженные в процентах к итогу; сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

Вариационный ряд характеризуется двумя элементами: вариантой (Х) и частотой (f). Варианта – это отдельное значение признака отдельной единицы или группы совокупности. Число, показывающее, сколько раз встречается то или иное значение признака, называется частотой. Если частота выражена относительным числом, то она называется частостью.

Вариационный ряд может быть:

    интервальным, когда определены границы «от» и «до», интервальные ряды распределения можно представить графически в виде гистограммы;

    дискретным, когда изучаемый признак характеризуется определенным числом.

  1. Графическое изображение рядов распределения

Наглядно ряды распределения представляются при помощи графических изображений.

Ряды распределения изображаются в виде:

    полигона;

    гистограммы;

    кумуляты;

При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) - частоты или частости.

Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат - накопленные частоты или частости.

Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака - на оси ординат.

Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат - накопленные значения доли (в процентах) по объему признака.

Пусть из генеральной совокупности извлечена выборка, причем х 1 наблюдалось п 1 раз, х 2 - п 2 раз, х к - п к раз и - объем выборки. Наблюдаемые значения х 1 называют вариантами, а последовательность вариант, записанных в возрастающем порядке - вариационным рядом .

Число наблюдений варианты называют частотой, а ее отношение к объему выборки - относительной частотой .

Определение. Статистическим (эмпирическим) законом распределения выборки, или просто статистическим распределением выборки называют последовательность вариант и соответствующих им частот п i или относительных частот .

Статистическое распределение выборки удобно представлять в форме таблицы распределения частот, называемой статистическим дискретным рядом распределения:

(сумма всех относительных частот равна единице ).

Пример 1 . При измерениях в однородных группах обследуемых получены следующие выборки: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72,74 (частота пульса). Составить по этим результатам статистический ряд распределения частот и относительных частот.

Решение. 1) Статистический ряд распределения частот:

Контроль: 0,1 + 0,2 + 0,4 + 0,1 + 0,2 = 1.

Полигоном частот называют ломаную, отрезки, которой соединяют точки Для построения полигона частот на оси абсцисс откладывают варианты х 2 , а на оси ординат - соответствующие им частоты п i . Точки соединяют отрезками и получают полигон частот.

Полигоном относительных частот называют ломаную, отрезки, которой соединяют точки . Для построения полигона относительных частот на оси абсцисс откладывают варианты х i , а на оси ординат соответствующие им частоты w i . Точки соединяют отрезками и получают полигон относительных частот

Пример 2. Постройте полигон частот и полигон относительных частот по данным примера 1.

Решение: Используя дискретный статистический ряд распределения, составленный в примере 1 построим полигон частот и полигон относительных частот:


2. Статистический интервальный ряд распределения. Гистограмма .

Статистическим дискретным рядом (или эмпирической функцией распределения) обычно пользуются в том случае, когда отличных друг от друга вариант в выборке не слишком много, или тогда, когда дискретность по тем или иным причинам существенна для исследователя. Если же интерисующий нас признак генеральной совокупности Х распределен непрерывно или его дискретность нецелесообразно (или невозможно) учитывать, то варианты группируются в интервалы.


Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

1. R(размах) = X max -X min

2. k- число групп

3. (формула Стерджеса)

4. a = x min , b = x max

Полученную группировку удобно представить в форме частотной таблицы, которая носит название статистический интервальный ряд распределения:

Интервалы группировки ...
Частоты ...

Аналогическую таблицу можно образовать, заменяя частоты n i относительными частотами.

Цель: научиться составлять статистические распределения выборок, строить полигоны, гистограммы, строить эмпирические функции распределения.

Математическая статистика – это раздел прикладной математики, посвящённый методам сбора, группировки и анализа статистических сведений, полученных в результате наблюдений или экспериментов.

Генеральной совокупностью называют множество объектов, однородных относительно некоторого признака.

Выборочной совокупностью (выборкой) называется совокупность случайно отобранных объектов.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

Число объектов совокупности называется её объёмом.

Выборка называется репрезентативной , если каждый объект выборки отобран случайно из генеральной совокупности, и если все объекты имеют одинаковую вероятность попасть в выборку.

Численное значение количественного признака называется вариантой .

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот .

Вариационным рядом называется ранжированный в порядке возрастания (или убывания) ряд вариант с соответствующими им частотами.

Вариационный ряд называется дискретным , если любые его варианты отличаются на постоянную величину, и – интервальным , если варианты могут отличаться одна от другой на сколь угодно малую величину.

Дискретный статистический ряд задается таблицей, в которой указываются варианты, частоты или относительные частоты их встречаемости. Графическое изображение дискретного статистического ряда называетсяполигоном частот (относительных частот). Это ломаная, в которой концы отрезков имеют координаты или , .

Пример . Закон распределения дискретного статистического рядя и полигон частот.

Интервальный статистический ряд для случайных непрерывных величин и для случайных дискретных величин при больших объемах выборок. Интервальный ряд представляет собой таблицу, в которой указаны частичные интервалы, плотности частот или плотности относительных частот. Графическое изображение интервального статистического ряда называетсягистограммой. Представляет собой ступенчатую фигуру из прямоугольников с основаниями, равными интервалам значений признака, и высотами, равными частотам интервалов.

Пример . Закон распределения интервального статистического ряда и гистограмма.

(55;60) (60;65) (65;70) (70;75) (75;80) (80;85) (85;90)

Алгоритм построения интервального ряда:

Пусть дана выборка с объёмом .

1) находим размах выборки ,

2) определяем число классов разбиения по формулам:

(формула Стерджесса для )

(формула Брукса для ),

3) находим величину классового интервала ,

4) границы частичных интервалов находим по формулам:

, , , .



5) подсчитываем частоты попадания вариант в каждый интервал.

Кумулятивная кривая (кумулята) – кривая накопленных частот. Для дискретного ряда кумулята представляет собой ломаную, соединяющую точки или , . Для интервального вариационного ряда ломаная начинается с точки, абсцисса которой равна началу первого интервала, а ордината накопленной частоте, равной 0. Другие точки соответствуют концам интервалов.

Эмпирической функцией распределения называется относительная частота того, что признак примет значение, меньшее заданного , то есть .

Для дискретного вариационного ряда эмпирическая функция представляет собой разрывную ступенчатую функцию, для интервального – совпадает с кумулятой.

Основные числовые характеристики вариационного ряда :

Среднее арифметическое вариационного ряда , где - варианты дискретного ряда или середины интервалов интервального, - соответствующие им частоты.

Основные свойства средней арифметической :

6) , где - общая средняя, - групповая средняя -той группы с объёмом , - число групп.

Дисперсия вариационного ряда .

Основные свойства дисперсии :

2) ,

3) ,

4) ,

5) , где - общая дисперсия, - групповая дисперсия, - средняя арифметическая групповых дисперсий, - межгрупповая дисперсия.

6) - дисперсия среднего значения.

Среднее квадратическое отклонение .

Коэффициент вариации .

Медиана вариационного ряда , где - начало медианного интервала, - его длина, - объём выборки, - сумма частот интервалов, предшествующих медианному, - частота медианного интервала. Для дискретного ряда медиана - значение признака, приходящееся на середину ранжированного ряда наблюдений.

Мода , где - начало модального интервала, - его длина, - частота модального интервала, и - частоты соответственно предшествующего и последующего за модальным интервалов. Для дискретного ряда мода - варианта, которой соответствует наибольшая частота.

Начальный момент -го порядка .

Центральный момент -го порядка .

Коэффициент асимметрии .

Эксцесс .

Контрольные вопросы:

1. Генеральная и выборочная совокупности, их объём.

2. Статистическое распределение выборки. Вариационный ряд.

3. Дискретный статистический ряд. Полигон частот.

4. Интервальный статистический ряд. Гистограмма.

5. Алгоритм построения интервального статистического ряда.

6. Эмпирическая функция распределения. Кумулятивная кривая.

7. Среднее арифметическое вариационного ряда и его свойства.

8. Дисперсия и её свойства. СКО.

Контрольные задания:

1.Как известно, почерк человека, в том числе наклон букв, тесно связан с его характером. Низкий наклон (30 – 40 град.) свидетельствует о вспыльчивости и возбудимости человека, излишней прямоте и торопливости в поступках; наклон 40 – 50 град. характеризует гармоническое развитие натуры; наклон 50 – 90 град. свидетельствует о самообладании, узком диапазоне увлечений.

Среди студентов института выборочно был исследован почерк 50 человек. Оказалось, что почерк у 30% присутствующих имеет низкий наклон, у 50% - наклон 40 – 50 и у 20% - наклон 50 – 90 град.

Найти распределение частот, относительных частот, построить полигон и гистограмму.

2. Дано распределение признака , полученное по наблюдениям. Необходимо:

4. Изучался рост (см) мужчин возраста 25 лет. По случайной выборке объема 35: 175, 167, 168, 169, 168, 170, 174, 173, 177, 172, 174, 167, 173, 172, 171, 171, 170, 167, 174, 177, 171, 172, 173, 169, 171, 173, 173, 168, 173, 172, 166, 164, 168, 172, 174, найти статистический интервальный ряд распределения и построить гистограмму частот.

Задания для домашней работы:

Дано распределение признака , полученное по наблюдениям. Необходимо:

1) построить (полигон) гистограмму, кумуляту и эмпирическую функцию распределения;

2) найти: среднюю арифметическую, моду и медиану, дисперсию, СКО и коэффициент вариации, начальные и центральные моменты -го порядка.

5-10 10-15 15-20 20-25 25-30 30-35 35-40

Тема №12 «Нахождение точечных и интервальных оценок параметров распределения»

Цель: научиться определять точечные и интервальные статистические оценки генеральных параметров нормального распределения по выборочным данным генеральной совокупности.

Краткие теоретические сведения:

Статистической оценкой (статистикой) неизвестного параметра q распределения генеральной совокупности называют функцию результатов наблюдений q* .

Статистическая оценка q* является случайной величиной.

Оценка, определяемая одним числом, зависящим от выборочных данных, называется точечной .

Требования, предъявляемые к точечным статистическим оценкам:

1) состоятельность (стремление по вероятности к оцениваемому параметру при ),

2) несмещённость (отсутствие систематических ошибок при любом объёме выборки (q*) = q ),

3) эффективность (среди всех возможных оценок эффективная оценка обладает наименьшей дисперсией).

Точечные оценки генеральных параметров нормально распределённой совокупности:

Интервальной оценкой называют оценку, которая определяется двумя числами – концами интервала.

Интервальные оценки позволяют установить точность и надёжность точечной оценки.

Точностью оценки называется отклонение по модулю q* от q.

Предельной ошибкой выборки называется максимально допустимое по модулю отклонение q* от q .

Надёжностью (доверительной вероятностью) оценки q* называют вероятность , с которой осуществляется неравенство |q - q*|< . Обычно = 0,95; 0,99; 0,999…

Вероятность того, что неизвестный параметр не попадёт в интервал |q - q*|< , равна - уровню значимости .

Доверительным называется интервал (q*- ;q*+ ), который покрывает неизвестный параметр с заданной надёжностью .

Интервальные оценки параметров нормального распределения:

1) Доверительный интервал для математического ожидания при известной дисперсии .

, где находят из таблицы функции Лапласа, учитывая .

2) Доверительный интервал для математического ожидания при неизвестной дисперсии .

Рис.:
, где находят из таблицы коэффициентов Стьюдента.

3) Доверительный интервал для дисперсии при известном .

< < , где , - находят при с числом степеней свободы .

4) Доверительный интервал для дисперсии при неизвестном .

, где - находят из таблицы распределения при 1- , - находят при с числом степеней свободы .

Пример 1 . Вычислить несмещённые оценки параметров генеральной совокупности по выборочным данным: 64 63 71 68 73 71 74 73 70 75 68 67 73.

,

,

.

Пример 2 . Найти доверительные интервалы для математического ожидания, дисперсии и стандартного отклонения при уровне значимости 0,05, если из генеральной совокупности сделана выборка, используемая в примере 1.

Решение. Используем данные из примера 1 для нахождения доверительного интервала для математического ожидания при неизвестной дисперсии:

,

.

Используем данные из примера 1 для нахождения доверительного интервала для дисперсии при неизвестном математическом ожидании:

,

где = ()= =4,4 и =

,

Контрольные вопросы:

1. Статистическая оценка неизвестного параметра теоретического распределения.

2. Точечная оценка.

3. Требования к точечным оценкам: несмещённость, состоятельность, эффективность.

4. Генеральная и выборочная средняя.

5. Генеральная и выборочная дисперсии.

6. Поправочный коэффициент. Исправленная выборочная дисперсия.

7. Генеральное среднеквадратическое отклонение и его точечная оценка.

8. Оценка дисперсии и СКО выборочной средней.

9. Интервальная оценка неизвестного параметра генеральной совокупности.

10. Доверительная вероятность и уровень значимости.

11. Доверительный интервал.

12. Правило нахождения доверительного интервала.

13. Доверительный интервал для математического ожидания при известной дисперсии .

14. Доверительный интервал для математического ожидания при неизвестной дисперсии .

15. Доверительный интервал для дисперсии при известном .

16. Доверительный интервал для дисперсии при неизвестном .

Контрольные задания:

1. При проверке успеваемости факультета были выборочно протестированы 50 обучаемых, распределившихся по результатам тестирования следующим образом ( - балл, - количество обучаемых с данным баллом):

Найти выборочную среднюю дистанции общения.

3. Найти разброс среднего балла в задании 1 тестирования 50 студентов.

4. Найти оценку разброса скорости чтения, распределение, которой представлено в таблице, предварительно определив относительную частоту средней скорости чтения.

5. Найти несмещённые оценки генеральной средней, дисперсии и среднеквадратического отклонения генеральной совокупности по выборке объема 12, описывающей продолжительность в секундах физической нагрузки до развития приступа стенокардии: 289, 208, 259, 243, 232, 210, 251, 246, 224, 239, 220, 211.

6. Имеется выборка объема – это значения систолического давления у мужчин в начальной стадии шока: 127, 124, 155, 129, 77, 147, 65, 109, 145, 141. Определить дисперсию и среднеквадратическое отклонение выборочной средней.

7. По схеме бесповторной выборки из 400 испытуемых в опытах Францена и Оффенлоха с применением вызванных потенциалов отобраны 100 человек и проведены замеры латентных периодов. Результаты испытаний приведены в таблице:

Задано среднее квадратическое отклонение . Найти:

а) вероятность того, что средний латентный период всех 400 человек отличается от среднего периода в выборке не более чем на 0,31 мс (по абсолютной величине),

б) границы, в которых с вероятностью заключено среднее значение латентного периода,

в) объём выборки, для которой доверительные границы с предельной ошибкой имели бы место с доверительной вероятностью .

8. Распределение ежедневных визитов Карлсона к Малышу в течение месяца показано в таблице:

Определить границы, в которых с вероятностью заключено среднее количество визитов.

9. Случайная величина имеет нормальное распределение с известным средним квадратическим отклонением =3. Найти доверительные интервалы для оценки неизвестного математического ожидания а по выборочным средним =24,5, если объём выборки и задана надёжность оценки .

10. Количественный признак генеральной совокупности распределён нормально. По выборке объёма найдены выборочная средняя =20,2 и исправленное среднее квадратическое отклонение . Оценить неизвестное математическое ожидание при помощи доверительного интервала с надёжностью 0,95.

11. Для 9 претендентов на должность руководителя была проведена оценка профессионального показателя , характеризующего способность руководить людьми. Считая показатель распределённым по нормальному закону со средним квадратическим отклонением усл. ед., определить с надёжностью доверительный интервал для истинного среднего квадратического отклонения показателя .

Задания для домашней работы:

1. Найти оценки генеральных средней, дисперсии и среднего квадратического отклонения, если совокупность задана таблицей распределения:

Оценить с надежностью 0,95 математическое ожидание нормально распределённого признака генеральной совокупности с помощью доверительного интервала.

4. Найти доверительные интервалы для математического ожидания, дисперсии и среднего квадратического отклонения при доверительной вероятности 0,95, если из генеральной совокупности сделана выборка:

67 70 69 68 74 72 66 66 74 69 72 78 67

Тема №13 «Проверка статистических гипотез о равенстве дисперсий и математических ожиданий»

Цель: научиться проверять статистические гипотезы о равенстве дисперсий и математических ожиданий нормальных генеральных совокупностей.

Краткие теоретические сведения:

Статистической называют гипотезу о виде неизвестного распределения, или о параметрах известных распределений.

Нулевой (основной) называют выдвинутую гипотезу .

Конкурирующей (альтернативной) называют гипотезу , которая противоречит нулевой.

Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза.

Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Вероятность совершить ошибку второго рода – уровень значимости .

Статистическим критерием называют случайную величину , которая служит для проверки нулевой гипотезы.

Наблюдаемым значением называют значение критерия, вычисленное по выборкам.

Критической областью называют совокупность значений критерия, при которой нулевую гипотезу отвергают.

Область принятия гипотезы – совокупность значений критерия, при котором гипотезу принимают.

Если принадлежит критической области – гипотезу отвергают, если принадлежит области принятия гипотезы – гипотезу принимают.

Критическими точками называют точки, отделяющие критическую область от области принятия гипотезы.

Критические точки ищут, исходя из требования, что при условии справедливости нулевой гипотезы, вероятность того, что критерий попадет в критическую область, была равна принятому уровню значимости.

Для каждого критерия имеются соответствующие таблицы, по которым находят критическую точку, удовлетворяющую этому требованию.

Когда найдена, вычисляют по данным выборок и, если > (правосторонняя критическая область), < (левосторонняя), < < , < (двусторонняя), то отвергается.

Сравнение двух дисперсий нормальных генеральных совокупностей:

Пусть и распространены нормально. По независимым выборкам с объемами, соответственно равными и , извлеченным из этих совокупностей, найдены исправленные выборочные дисперсии и . Требуется по исправленным дисперсиям при заданном уровне значимости проверить нулевую гипотезу .

1) выдвигаем конкурирующую гипотезу (),

2) находим ,

3) по таблице критических точек Фишера –Снедекора находим (), где , и - объём выборки, которой соответствует , - ,

4) если , то принимаем нулевую гипотезу, в противном случае – альтернативную.

При большом числе наблюдений (порядка сотен) простая статистическая совокупность перестает быть удобной формой записи статистического материала - она становится слишком громоздкой и мало наглядной. Для придания ему большей компактности и наглядности статистический материал должен быть подвергнут дополнительной обработке - строится так называемый «статистический ряд».

Предположим, что в нашем распоряжении результаты наблюдений над непрерывной случайной величиной , оформленные в виде простой статистической совокупности. Разделим весь диапазон наблюденных значений на интервалы или «разряды» и подсчитаем количество значений , приходящееся на каждый -й разряд. Это число разделим на общее число наблюдений и найдем частоту, соответствующую данному разряду:

Сумма частот всех разрядов, очевидно, должна быть равна единице.

Построим таблицу, в которой приведены разряды в порядке их расположения вдоль оси абсцисс и соответствующие частоты. Эта таблица называется статистическим рядом:

Здесь -обозначение -го разряда - его границы; - соответствующая частота; - число разрядов.

Пример 1. Произведено 500 измерений боковой ошибки наводки при стрельбе с самолета по наземной цели. Результаты измерений (в тысячных долях радиана) сведены в статистический ряд:

Здесь обозначены интервалы значений ошибки наводки; - число наблюдений в данном интервале, - соответствующие частоты.

При группировке наблюденных значений случайной величины по разрядам возникает вопрос о том, к какому разряду отнести значение, находящееся в точности на границе двух разрядов. В этих случаях можно рекомендовать (чисто условно) считать данное значение принадлежащим в равной мере к обоим разрядам и прибавлять к числам , того и другого разряда по .

Число разрядов, на которые, следует группировать статистический материал, не должно быть слишком большим (тогда ряд распределения становится невыразительным, и частоты в нем обнаруживают незакономерные колебания); с другой стороны, оно не должно быть слишком малым (при малом числе разрядов свойства распределения описываются статистическим рядом слишком грубо). Практика показывает, что в большинстве случаев рационально выбирать число разрядов порядка 10 – 20. Чем богаче и однороднее статистический материал, тем большее число разрядов можно выбирать при составлении статистического ряда. Длины разрядов могут быть как одинаковыми, так и различными. Проще, разумеется, брать их одинаковыми. Однако при оформлении данных о случайных величинах, распределенных крайне неравномерно, иногда бывает удобно выбирать в области наибольшей плотности распределения разряды более узкие, чем в области малой плотности.

Статистический ряд часто оформляется графически в виде так называемой гистограммы. Гистограмма строится следующим образом. По оси абсцисс откладываются разряды, и на каждом из разрядов как их основании строится прямоугольник, площадь которого равна частоте данного разряда. Для построения гистограммы нужно частоту каждого разряда разделить на его длину и полученное число взять в качестве высоты прямоугольника. В случае равных по длине разрядов высоты прямоугольников пропорциональны соответствующим частотам. Из способа построения гистограммы следует, что полная площадь ее равна единице.

В качестве примера можно привести гистограмму для ошибки наводки, построенную по данным статистического ряда, рассмотренного в примере 1 (рис. 7.3.1).

Очевидно, при увеличении числа опытов можно выбирать все более и более мелкие разряды; при этом гистограмма будет все более приближаться к некоторой кривой, ограничивающей площадь, равную единице. Нетрудно убедиться, что эта кривая представляет собой график плотности распределения величины .

Пользуясь данными статистического ряда, можно приближенно построить и статистическую функцию распределения величины . Построение точной статистической функции распределения с несколькими сотнями скачков во всех наблюденных значениях слишком трудоемко и себя не оправдывает. Для практики обычно достаточно построить статистическую функцию распределения по нескольким точкам. В качестве этих точек удобно взять границы разрядов, которые фигурируют в статистическом ряде. Тогда, очевидно,

(7.3.2)

Соединяя полученные точки ломанной линией или плавной кривой, получим приближенный график статистической функции распределения.

Пример 2. Построить приближенно статистическую функцию распределения ошибки наводки по данным статистического ряда примера 1.