Вариационный ряд. Полигон и гистограмма.

Ряд распределения - представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.

В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:

§ Ряды распределения, построенные в порядке возрастания или убывания значений количественного признака называются вариационными .

Вариационный ряд распределения состоит из двух столбцов:

В первом столбце приводятся количественные значения варьирующегося признака, которые называются вариантами и обозначаются . Дискретная варианта - выражается целым числом. Интервальная варианта находится в пределах от и до. В зависимости от типа варианты можно построить дискретный или интервальный вариационный ряд.
Во втором столбце содержится количество конкретных вариант , выраженное через частоты или частости:

Частоты - это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.

Частости () - это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

Графическое изображение рядов распределения

Наглядно ряды распределения представляются при помощи графических изображений.

Ряды распределения изображаются в виде:

§ Полигона

§ Гистограммы

§ Кумуляты

Полигон

При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) - частоты или частости.

1. Полигон на рис. 6.1 построен по данным микропереписи населения России в 1994 г.


Гистограмма



Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

На рис. 6.2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.

Рис.1. Распределение населения России по возрастным группам

Эмпирическая функция распределения, свойства.

Пусть известно статистическое распределение частот количественного признака X. Обозначим через число наблюдений, при которых наблюдалось значение признака, меньшее x и через n – общее число наблюдений. Очевидно, относительная частота события X

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения x относительную частоту события X

В отличие от эмпирической функции распределения выборки, функцию распределения генеральной совокупности называют теоретической функцией распределения. Различие между этими функциями состоит в том, что теоретическая функция определяет вероятность события X

При росте n относительная частота события X

Основные свойства

Пусть зафиксирован элементарный исход . Тогда является функцией распределения дискретного распределения, задаваемого следующейфункцией вероятности:

где , а - количество элементов выборки, равных . В частности, если все элементы выборки различны, то .

Математическое ожидание этого распределения имеет вид:

.

Таким образом выборочное среднее - это теоретическое среднее выборочного распределения.

Аналогично, выборочная дисперсия - это теоретическая дисперсия выборочного распределения.

Случайная величина имеет биномиальное распределение:

Выборочная функция распределения является несмещённой оценкой функции распределения :

.

Дисперсия выборочной функции распределения имеет вид:

.

Согласно усиленному закону больших чисел, выборочная функция распределения сходится почти наверное к теоретической функции распределения:

почти наверное при .

Выборочная функция распределения является асимптотически нормальной оценкой теоретической функции распределения. Если , то

По распределению при .

Эмпирическое распределение отличается от теоретического тем, что на значения признака в нем влияют случайные факторы. С увеличением объема статистической совокупности влияние случайных факторов ослабевает, и эмпирическое распределение все менее отличается от теоретического.

Для оценки близости распределений используются особые показатели - критерии согласия.

Они основаны на использовании различных мер расстояний между эмпирическим и теоретическим распределением.

Наиболее часто на практике используются следующие критерия согласия:

_ «хи-квадрат»- критерий (критерий Пирсона); формат:

_ «лямбда»- критерий» (критерий Колмогорова).

5.9.1. «Хи-квадрат» - критерий является случайной величиной, имеющей распределение, близкое к распределению «хи-квадрат». Его величина определяется по формуле:

2 = у (ni - nT)2

Чем меньше эмпирические и теоретические частоты в отдельных группах отличаются друг от друга, тем меньше эмпирическое распределение отличается от теоретического, то есть тем в большей степени эмпирическое и теоретическое распределения согласуются между собой.

Для оценки существенности расчетной величины «хи- квадрат.» - критерия оно сравнивается с табличным (критическим) значением х2, определяемым по статистическим таблицам значений х2-

критерия. х2 определяют в зависимости от уровня значимости а и параметра k=m- т1 -1, где а - вероятность ошибки, ml - число оцененных параметров теоретического распределения по наблюдаемым значениям признака.

Уровень значимости т выбирается таким образом, что Р(хР > х2)=а.

Обычно а принимается равным 0,05 или 0,01, что соответствует вероятности 95% или 99%.

Если хр ^ Xt , то считают, что распределения близки друг другу,

различия между ними несущественны.

Критерий Пирсона можно использовать можно при соблюдении ф°рмат: спис°к следующих условий:

в совокупности не менее 50 единиц наблюдения (N > 50),

теоретические частоты п, >5,- если это условие не соблюдается, то следует объединить интервалы.

Рассчитаем в таблице 4.6.

Значения отклонений (nt -nh) и фактическое значение х2- критерия. По расчету хр = 1,66. Это значение

сравнивается с табличным, определенном при числе степеней свободы k=4 и уровне значимости = 0,05. Оно равно хр =9,49.

Таким образом хрраспределения признаются близкими друг другу с вероятностью 95%, расхождения между ними - несущественными, вызываемыми случайной вариацией признака в совокупности.

На основе? - критерия может быть рассчитан ещё один критерий согласия - критерий Романовского:

л/2 (т - 3) "

Эмпирическое и теоретическое распределения признаются близкими друг другу, если С 5.9.2. Критерий согласия Колмогорова основан на другой мере близости распределений. Для оценки близости эмпирического распределения к нормальному используется максимальная разница между накопленными эмпирическими и накопленными теоретическими частотами. Расчетное значение «лямбда»- критерия» определяется по формуле:

где Д = max{N - N }

Nt - накопленная эмпирическая частота, N,. - накопленная теоретическая частота.

По рассчитанному значению Хр по специальной таблице вероятностей «лямбда»- критерия» определяется вероятность того, что рассматриваемое эмпирическое распределение подчиняется закону нормального распределения. Для рассматриваемого примера Д=2 - в соответствии с расчетом, приведенным в таблице 4.6.

Тогда Яр = -= = = 0,283.

По таблице вероятностей Р(Я) определяем, что Я =0,283 соответствует вероятность Р(Я), близкая к 1.

Полученное значение вероятности свидетельствует о том, что расхождение между эмпирическим и теоретическим распределениями несущественны, вызваны случайной вариацией признака в статистической совокупности. В основе эмпирического распределения рабочих по стажу лежит закон нормального распределения.

Еще по теме 5.9. Оценка близости эмпирического и теоретического распределений:

  1. Эмпирический и теоретический уровни политического знания
  2. Раздел II УПРАВЛЕНИЕ ПРОДАЖАМИ В КАНАЛАХ РАСПРЕДЕЛЕНИЯ: ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ ГЛАВА 8 Каналы распределения: сущность, функции, виды участников

Указания к выполнению и оформлению лабораторных работ

Работы выполняются на листах формата А-4. На титульном листе записывается название работы, фамилия и имя исполнителя, группа, отделение, текущий год и семестр.

Чертежи, схемы, рисунки, таблицы выполняются с помощью чертежных инструментов. Все они должны сопровождаться названиями и необходимыми надписями. Текущий текст пишется ручкой. Важные места работы можно выделять цветом. Работы можно оформлять на компьютере.

При выполнении работы во всех случаях записываются применяемые формулы, промежуточные вычисления, даются необходимые письменные пояснения. Особо выделяются получаемые результаты при обработке данных.

В конце каждой работы приводится письменный анализ полученных результатов, выдвигаются гипотезы, делаются выводы и обобщения, стоятся прогнозы.

Отбор числового материала для выполнения работ

Работы 1-2 .

Ч исловые данные выбираются из таблицы "Статистические данные". Она находится в приложении к данному комплекту работ. Вариант сообщает преподаватель.

Работа 3.

Исходные числовые данные совпадают с числовыми данными, использованными при выполнении работы 1.

Работа 4.

Требуется две группы числовых данных: показатель Х и показатель У. Показатель Х совпадает с числовыми данными, использованными при выполнении первой работы. Показатель У берется из следующей строки таблицы "Статистические данные", по отношении к строке, использованной в первой работе.

Работа 5

Требуется две группы числовых данных: тест и ретест. Тест совпадает с числовыми данными, использованными при выполнении первой работы. Значения ретеста берутся из второй строки таблицы "Статистические данные", по отношении к строке, использованной в первой работе.

Работа 6

Требуется 5 групп данных (5 тестов). Работа выполняется для 7 спортсменов. Имена их выбираются самостоятельно, фамилии при этом не упоминаются

Для получения значений теста "масса тела", надо взять числовые данные строки таблицы "Статистические данные", использованной в работе 1 и увеличить каждое из них их на одно и тоже число, взятое из промежутка 50 – 100. Полученные числа округлить до целых значений. Обратить внимание на то, что значения массы были правдоподобными.

Для получения значений теста "рост", надо взять числовые данные строки таблицы "Статистические данные", использованной в работе 1 и увеличить каждое из них их на одно и тоже число, взятое из промежутка 100 - 150 Полученные числа округлить до целых значений. Обратите внимание на то, что бы значения роста были правдоподобными.

Откорректируйте полученную Массу и Рост до правдоподобных их значений.

Остальные пять тестов и их числовые значения выбираются самостоятельно.

Работа 7,

Требуется один тест и два критерия. Значения теста берется из строки 33 таблицы "Статистические данные". Для первого критерия берутся числовые данные из строки, которая использовалась при выполнении первой работы. Для второго критерия берется следующая строка таблицы "Статистические данные", по отношении к строке, использованной в первой работе.

Тема 1. Обработка статистического материала методом средних величин

Теоретические сведения

Обработка статистических данных методом средних величин является наиболее популярным среди работников физической культуры и спорта. Он заключается в получении ряда средних показателей, которые позволяют анализировать статистические данные.

а). Первичная обработка поступающих данных

Устанавливается объем выборки, а именно определяется число обрабатываемых данных. Надо иметь в виду, что, чем больше объем выборки, тем точнее получаемые показатели и тем сложнее вести вычисления. В процессе соревнований или иных действий (используются протоколы соревнований) данные поступают в произвольном порядке. Для удобства рекомендуется ведение записей данных в виде таблицы по пять или десять чисел в каждой строчке, что облегчает установления их числа.

б). Построение вариационного ряда (вариационной таблицы ) и определение их параметров и численных характеристик для рассматриваемой совокупности.

Каждый вариационный ряд представляет собой математическую систему, т.е. группу чисел, связанных между собой. Такую систему характеризуется следующими показателями:

~ среднее арифметическое, обозначается: , X сред, , Х ср, х ср

~ дисперсия, обозначается: d или s 2

~ среднее квадратичное отклонение, обозначается: s

~ коэффициент вариации, обозначается: u

2. Последовательность обработки данных:

1. Ранжирование данных.

Данные, взятые из таблицы (см. приложение) запишите в удобном для Вас порядке

а). Строится таблица ранжирования по образцу таблицы 1-1.

В первом столбике записывается числовые значения показателей в порядке возрастания. Рекомендуется записать последовательно все значения от минимального показателя до максимального показателя. Соседние значения могут отличаться на значение точности измерений.

Во втором столбике делается отметка о наличии таковых показателей в выборке. Для этого ставится палочка (звездочка, точка или иной знак) против соответствующего показателя при последовательном просмотре выборки. Некоторые строчки в данном столбике могут оказаться пустыми.

В третьем столбике записывается число встречаемых одинаковых показателей.

б). На основе таблицы 1-1 строится обобщенная таблица 1-2, состоящая из двух столбиком.

Первый (левый) столбик состоит из собственных показателей – вариант. Он обозначается чрез x i и содержит значения очередного показателя.

Второй (правый) столбик содержит число показателей (вариант), называемых частотой Он показывает число соответствующих одинаковых показателей и обозначается через n i

Сумма частот определяет объемом совокупности.

Замечание. Собственный показатель и частота обозначаются латинскими буквами, индекс показывает на номер множества, которому принадлежит соответствующий показатель. Объем совокупности обозначается буквой без индекса. Например, n=40. При одновременном рассмотрении нескольких вариационных рядов, рекомендуется использовать различные буквы.

2. Вычисление среднего арифметического.

Эта характеристика является показателем, который вычисляется наиболее просто и поэтому часто используется исследователями.

, n – объем совокупности; x 1 , x 2 …x n – показатели, взятые из первоначальной таблицы 1-1.

Для вычисления среднего арифметического удобно составить таблицу 1-3 и тогда формула вычисления среднего арифметического имеет вид:

X сред = , где x i – частота; n – объем совокупности

В дальнейшем будут рассмотрены и другие характеристики вариационного ряда.

Замечания:

1. Таблица 3 является частью таблицы 4, поэтому их можно объединить.

2. Точность полученных при вычислениях результатов вычислений и точность измерений должны совпадать. (Иметь одинаковое число десятичных знаков после запятой). Промежуточные результаты должны иметь более высокую точность: одну - две запасные цифры. Окончательный результат округляется до необходимой точности. Если округление с необходимой точность приводит к нулевому результату, то округление проводится до первой значащей цифры, отличной от нуля, считая слева.

3. Вычисление дисперсии.

Дисперсия указывает на варьирование (рассеивание) исходных данных относительно среднего арифметического. Дисперсия обозначается буквами d или σ 2 ивычисляется по формуле:

d =

1. Вычерчивается макет таблицы 1-4, в который вносятся данные полученные ранее. Это, например, с первого по четвертый столбики. Остальные - заполняется по мере проведения вычислений. Обращаем внимание на то, что в этой таблице первые четыре столбика повторяют предыдущую таблицу 1-3. Поэтому, если исследователь заранее планирует вычисление дисперсии, то таблицу1-3 можно отдельно не приводить

2. Определяется X сред

3. Заполняется пятый столбик таблицы 1-4, для этого из каждого показателя второго столбика вычитаются средний показатель: х i - x сред

4. Найденные разности, это показатели пятого столби, возводятся в квадрат: (х i - x сред) 2 и вносятся в шестой столбик таблицы 1-4

5. Полученные квадраты (столбик 6) умножаются на соответствующие частоты (столбик 3), результаты вносятся в последний столбик таблицы 1-4: именно, (х i - x сред) 2 ·n i .

6. Находится сумма S полученных произведений – суммируется последний столбик этой таблицы.

7. Полученная сумма S делится на объем совокупности n=25. Полученный результат и есть дисперсия. Округляется до точности исходных (обрабатываемых) показателей.

4. Вычисление среднего квадратичного отклонения

Средне квадратичное значение вычисляется по формуле s = =

5.Вычисление коэффициента вариации.

Коэффициент вариации вычисляется по формуле: , если коэффициент представляется в виде процентов. Если надо представить его в виде десятичной дроби, то в формуле отсутствует множитель 100%

6. Анализ полученных показателей

Основными параметрами вариационного ряда являются среднее арифметическое, среднее квадратичное, коэффициент дисперсии.

Составляется неравенство

A < X сред < B, где А = X сред - s, В = X сред + s

или X сред - s < X сред < В = X сред + s

Из этих характеристик усматриваются типичные показатели, которые входят в промежуток (A; В) и нетипичные, которыми не входят в указанный промежуток. Можно рекомендовать к рассмотрению промежуток , т.е. включаются границы промежутка.

При рассмотрении основных положений теории вероятностей и математической статистики, определении параметров распределения мы исходили из предположения, что осуществляется достаточно большое, в пределе бесконечное число испытаний n®N (N®¥), что практически осуществить невозможно.

Однако имеются методы, которые позволяют оценить эти параметры по выборке (части) случайных событий.

Генеральной называется совокупность всех мыслимых значений наблюдений, которые мы могли бы сделать при данном комплексе условий. Другими словами все возможные реализации случайной величины, теоретически в пределе их может быть бесконечное число (N®¥). Часть этой совокупности nÎN, т.е. результаты ограниченного ряда наблюдений x 1 ,x 2 ,...,x n случайной величины, можно рассматривать как выборочное значение случайной величины (например, при определении химического состава сплавов, их механической прочности и т.п.). Если все слитки данной марки стали, чугуна, сплава разделать на образцы и исследовать их химический состав, механическую прочность и другие физические характеристики, то имели бы генеральную совокупность наблюдений. Фактически доступно, возможно (целесообразно), исследовать свойства весьма ограниченного числа образцов – это и есть выборка их генеральной совокупности.

По результатам такого ограниченного числа наблюдений можно определить точечные оценки законов распределения и их параметров. Оценкой (или выборочной статистикой) Q* какого-либо параметра Q называется произвольная функция Q*=Q*(x 1 , x 2 ,..., x n) наблюдаемых значений x 1 , x 2 ,..., x n , в той или иной степени отражающая действительное значение параметра Q.

Если говорить о характеристиках распределений вероятностей, то характеристики теоретических распределений (M x , s x 2 , M o , M e) можно рассматривать как характеристики, существующие в генеральной совокупности, а характеризующие эмпирическое распределение – как выборочные их характеристики (оценки). Числовые параметры для оценки M x , s x 2 и др. – называются иногда статистиками.

Для оценки математического ожидания используется среднеарифметическое (среднее значение) ряда измерений по выборке:

где х i – реализация либо дискретной, либо отдельная точка для непрерывной случайной величины; n – объем выборки.

Для характеристики разброса случайной величины используется оценка теоретической дисперсии – выборочные дисперсии (см.рис.2.4):

(3.2а)

(3.2б)

Неотрицательное значение квадратного корня из выборочной дисперсии – это выборочное стандартное отклонение (выборочное среднеквадратичное) отклонение

Следует отметить, что в любой задаче, связанной с выполнением измерений, возможны два способа получения оценки значения s x 2 .

При использовании первого способа снимается последовательность показаний прибора и путем сравнения полученных результатов с известным или калиброванным значением измеряемой величины находится последовательность отклонений. Затем полученная последовательность отклонений используется для вычисления среднего квадратичного отклонения по формуле (3.3а).

Второй способ получения оценки значения s x 2 состоит в определении среднего арифметического , т.к. в этом случае действительное (точное) значение измеряемой величины неизвестно. В этом случае целесообразно использовать другую, формулу для нахождения среднеквадратичного отклонения (3.2б, 3.3б). Деление на (n-1) производится по той причине, что наилучшая оценка, получаемая путем усреднения массива Х, будет отличаться от точного значения на некоторую величину, если рассматривается выборка, а не вся генеральная совокупность.

В этом случае сумма квадратов отклонений будет несколько меньше, чем при использовании истинного среднего . При делении на (n-1) вместо n эта погрешность будет частично скорректирована. В некоторых руководствах по математической статистике рекомендуется при вычислении выборочного среднеквадратичного отклонения всегда делить на , хотя иногда этого делать не следует. Нужно делить на лишь в тех случаях, когда истинное значение не было получено независимым способом.

Выборочное значение коэффициента вариации n, являющееся мерой относительной изменчивости случайной величины, вычисляют по формуле

или в процентах

(3.4б)

Та из выборок имеет большее рассеяние, у которой вариация больше.

К оценкам , S x 2 предъявляются требования состоятельности, несмещенности и эффективности.

Оценка параметра Q* называется состоятельной, если по мере роста числа наблюдений n (т.е. n®N в случае конечной генеральной совокупности объема N и при n®¥ в случае бесконечной генеральной совокупности) она стремится к оцениваемому теоретическому значению параметра

Например, для дисперсии

(3.5)

Оценка параметра Q* называется несмещенной, если ее математическое ожидание M(Q*) при любом n асимптотически стремится к истинному значению M(Q*)=Q. Удовлетворение требованию несмещенности устраняет систематическую погрешность оценки параметра, которая зависит от объема выборки n и в случае состоятельности стремится к нулю при n®¥. Выше было определены две оценки для дисперсии и . В случае неизвестного значения математического ожидания (истинного значения измеряемой величины) обе оценки состоятельны, но только вторая (3.2б), (3.3б), как было показано ранее, является несмещенной. Требование несмещенности особенно важно при малом числе наблюдений, так как при n®¥ ® .

Оценка параметра Q 1 * называется эффективной, если среди прочих оценок того же параметра Q 2 *, Q 3 * она обладает наименьшей дисперсией.

(3.6)

где Q i * – любая другая оценка.

Так, если имеется выборка х 1 , х 2 ,..., х n из генеральной совокупности, то среднее математическое ожидание можно оценить двумя способами:

(3.7)

где x max (n), x min (n) – соответственно максимальное и минимальное значения случайной величины из выборки n.

Обе оценки обладают свойствами состоятельности и несмещенности, однако можно показать, что дисперсия при первом способе оценки равна S x 2 /n, а во втором p 2 S x 2 /, т.е. существенно больше. Таким образом, первый способ оценки математического ожидания является состоятельным, несмещенным и эффективным, а второй – только состоятельным и несмещенным. Заметим, что из всех несмещенных и состоятельных оценок следует предпочесть такую, которая оказывается наиболее близкой к оцениваемому параметру.

Заметим, что все сказанное относится к равноточным измерениям, т.е. к измерениям, которые содержат только случайную погрешность, подчиняющуюся нормальному закону распределения.