Лабораторная работа №1. Первичная обработка статистических данных

Построение рядов распределения

Упорядоченное распределение единиц совокупности на группы по какому-либо одному признаку называется рядом распределения . При этом признак может быть как количественным, тогда ряд называется вариационным , так и качественным, тогда ряд называют атрибутивным . Так, например, население города может быть распределено по возрастным группам в вариационный ряд, или по профессиональной принадлежности в атрибутивный ряд (конечно, можно предложить еще множество качественных и количественных признаков для построения рядов распределения, выбор признака определяется задачей статистического исследования).

Любой ряд распределения характеризуется двумя элементами:

- варианта (х i ) – это отдельные значения признака единиц выборочной совокупности. Для вариационного ряда варианта принимает числовые значения, для атрибутивного – качественные (например, х=«государственный служащий»);

- частота (n i ) – число, показывающее, сколько раз встречается то или иное значение признака. Если частота выражена относительным числом (т.е. долей элементов совокупности, соответствующих данному значению варианты, в общем объеме совокупности), то она называется относительной частотой или частостью .

Вариационный ряд может быть:

- дискретным , когда изучаемый признак характеризуется определенным числом (как правило целым).

- интервальным , когда определены границы «от» и «до» для непрерывно варьируемого признака. Интервальный ряд также строят если множество значений дискретно варьируемого признака велико.

Интервальный ряд может строиться как с интервалами равной длины (равноинтервальный ряд) так и с неодинаковыми интервалами, если это диктуется условиями статистического исследования. Например, может рассматриваться ряд распределения доходов населения со следующими интервалами: <5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



где k – число интервалов, n – объем выборки. (Конечно, формула обычно дает число дробное, а в качестве числа интервалов выбирается ближайшее целое к полученному число.) Длина интервала в таком случае определяется по формуле

.

Графически вариационные ряды могут быть представлены в виде гистограммы (над каждым интервалом интервального ряда выстраивается «столбик» высоты, соответствующей частоте в этом интервале), полигона распределения (ломаная линия, соединяющая точки (х i ;n i ) либо кумуляты (строится по накопленным частотам, т.е. для каждого значения признака берется частота появления в совокупности объектов со значением признака меньшим данного).

При работе в Excel для построения вариационных рядов могут быть использованы следующие функции:

СЧЁТ(массив данных ) – для определения объема выборки. Аргументом является диапазон ячеек, в котором находятся выборочные данные.

СЧЁТЕСЛИ(диапазон; критерий ) – может быть использована для построения атрибутивного или вариационного ряда. Аргументами являются диапазон массива выборочных значений признака и критерий – числовое или текстовое значение признака или номер ячейки, в которой оно находится. Результатом является частота появления этого значения в выборке.

ЧАСТОТА(массив данных; массив интервалов ) – для построение вариационного ряда. Аргументами являются диапазон массива выборочных данных и столбец интервалов. Если требуется построить дискретный ряд, то здесь указываются значения варианты, если интервальный – то верхние границы интервалов (их еще называют «карманами»). Поскольку результатом является столбец частот, введение функции следует завершить нажатием сочетания клавиш CTRL+SHIFT+ENTER. Заметим, что задавая массив интервалов при введении функции, последнее значение в нем можно и не указывать – в соответствующий «карман» будут помещены все значения, не попавшие в предыдущие «карманы». Иногда это помогает избежать ошибки, состоящей в том, что наибольшее выборочное значение не помещается автоматически в последний «карман»

Кроме того, для сложных группировок (по нескольким признакам) используют инструмент «сводные таблицы». Для построения атрибутивных и вариационных рядов их тоже можно использовать, но это излишне усложняет задачу. Также для построения вариационного ряда и гистограммы существует процедура «гистограмма» из надстройки «Пакет анализа» (чтобы использовать надстройки в Excel, их нужно сначала загрузить, по умолчанию они не устанавливаются)

Проиллюстрируем процесс первичной обработки данных на следующих примерах.

Пример 1.1 . имеются данные о количественном составе 60 семей.

Построить вариационный ряд и полигон распределения

Решение .

Откроем таблицы Excel. Введем массив данных в диапазон А1:L5. Если Вы изучаете документ в электронной форме (в формате Word, например), для этого достаточно выделить таблицу с данными и скопировать ее в буфер, затем выделить ячейку А1 и вставить данные – они автоматически займут подходящий диапазон. Подсчитаем объем выборки n – число выборочных данных, для этого в ячейку В7 введем формулу =СЧЁТ(А1:L5). Заметим, что для того, чтобы в формулу ввести нужный диапазон, необязательно вводить его обозначение с клавиатуры, достаточно его выделить. Определим минимальное и максимальное значение в выборке, введя в ячейку В8 формулу =МИН(А1:L5), и в ячейку В9: =МАКС(А1:L5).

Рис.1.1 Пример 1. Первичная обработка статистических данных в таблицах Excel

Далее, подготовим таблицу для построения вариационного ряда, введя названия для столбца интервалов (значений варианты) и столбца частот. В столбец интервалов введем значения признака от минимального (1) до максимального (6), заняв диапазон В12:В17. Выделим столбец частот, введем формулу =ЧАСТОТА(А1:L5;В12:В17) и нажмем сочетание клавиш CTRL+SHIFT+ENTER

Рис.1.2 Пример 1. Построение вариационного ряда

Для контроля вычислим сумму частот при помощи функции СУММ (значок функции S в группе «Редактирование» на вкладке «Главная»), вычисленная сумма должна совпасть с ранее вычисленным объемом выборки в ячейке В7.

Теперь построим полигон: выделив полученный диапазон частот, выберем команду «График» на вкладке «Вставка». По умолчанию значениями на горизонтальной оси будут порядковые числа - в нашем случае от 1 до 6, что совпадает со значениями варианты (номерами тарифных разрядов).

Название ряда диаграммы «ряд 1» можно либо изменить, воспользовавшись той же опцией «выбрать данные» вкладки «Конструктор», либо просто удалить.

Рис.1.3. Пример 1. Построение полигона частот

Пример 1.2 . Имеются данные о выбросах загрязняющих веществ из 50 источников:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Составить равноинтервальный ряд, построить гистограмму

Решение

Внесем массив данных в лист Excel, он займет диапазон А1:J5 Как и в предыдущей задаче, определим объем выборки n, минимальное и максимальное значения в выборке. Поскольку теперь требуется не дискретный, а интервальный ряд, и число интервалов в задаче не задано, вычислим число интервалов k по формуле Стерджесса. Для этого в ячейку В10 введем формулу =1+3,322*LOG10(B7).

Рис.1.4. Пример 2. Построение равноинтервального ряда

Полученное значение не является целым, оно равно примерно 6,64. Поскольку при k=7 длина интервалов будет выражаться целым числом (в отличие от случая k=6) выберем k=7, введя это значение в ячейку С10. Длину интервала d вычислим в ячейке В11, введя формулу =(В9-В8)/С10.

Зададим массив интервалов, указывая для каждого из 7 интервалов верхнюю границу. Для этого в ячейке Е8 вычислим верхнюю границу первого интервала, введя формулу =B8+B11; в ячейке Е9 верхнюю границу второго интервала, введя формулу =E8+B11. Для вычисления оставшихся значений верхних границ интервалов зафиксируем номер ячейки В11 в введенной формуле при помощи знака $, так что формула в ячейке Е9 примет вид =E8+B$11, и скопируем содержимое ячейки Е9 в ячейки Е10-Е14. Последнее полученное значение равно вычисленному ранее в ячейке В9 максимальному значению в выборке.

Рис.1.5. Пример 2. Построение равноинтервального ряда


Теперь заполним массив «карманов» при помощи функции ЧАСТОТА, как это было сделано в примере 1.

Рис.1.6. Пример 2. Построение равноинтервального ряда

По полученному вариационном ряду построим гистограмму: выделим столбец частот и выберем на вкладке «Вставка» «Гистограмма». Получив гистограмму, изменим в ней подписи горизонтальной оси на значения в диапазоне интервалов, для этого выберем опцию «Выбрать данные» вкладки «Конструктор». В появившемся окне выберем команду «Изменить» для раздела «Подписи горизонтальной оси» и введем диапазон значений варианты, выделив его «мышью».

Рис.1.7. Пример 2. Построение гистограммы

Рис.1.8. Пример 2. Построение гистограммы

Наиболее простым способом обобщения статистического материала является построение рядов. Результатом сводки статистического исследования могут быть ряды распределения. Рядом распределения в статистике называется упорядоченное распределение единиц совокупности на группы по какому-либо одному признаку: по качественному или количественному. Если ряд построен по качественному признаку, то он называется атрибутивным, а если по количественному признаку, то вариационный.

Вариационный ряд характеризуется двумя элементами: вариантой (Х) и частотой (f). Варианта – это отдельное значение признака отдельной единицы или группы совокупности. Число, показывающее, сколько раз встречается то или иное значение признака, называется частотой. Если частота выражена относительным числом, то она называется частостью. Вариационный ряд может быть интервальным, когда определены границы «от» и «до», а может быть дискретным, когда изучаемый признак характеризуется определенным числом.

Построение вариационных рядов рассмотрим на примерах.

Пример . и меются данные о тарифных разрядах 60 рабочих одного их цехов завода.

Распределить рабочих по тарифному разряду, построить вариационный ряд.

Для этого выпишем все значения признака в порядке возрастания и посчитаем число рабочих в каждой группе.

Таблица 1.4

Распределение рабочих по разряду

Разряд рабочих (X)

Число рабочих

человек (f)

в % к итогу (частность)

Мы получили вариационный дискретный ряд, в котором изучаемый признак (разряд рабочего) представлен определенным числом. Для наглядности вариационные ряды изображают графически. На основании данного ряда распределения построили поверхность распределения.

Рис. 1.1. Полигон распределения рабочих по тарифному разряду

Построение интервального ряда с равными интервалами рассмотрим на следующем примере.

Пример . Известны данные о стоимости основного капитала 50 фирм в млн руб. Требуется показать распределение фирм по стоимости основного капитала.

Чтобы показать распределение фирм по стоимости основного капитала, сначала решим вопрос о количестве групп, которые хотим выделить. Предположим, решили выделить 5 групп предприятий. Затем определим величину интервала в группе. Для этого воспользуемся формулой

Согласно нашему примеру .

Путем прибавления величины интервала к минимальному значению признака, получим группы фирм по стоимости основного капитала.

Единица, обладающая двойным значением, относится к той группе, где она выступает в роли верхней границы (т.е. значение признака 17 пойдет в первую группу, 24 – во вторую и т.д.).

Подсчитаем число заводов в каждой группе.

Таблица 1.5

Распределение фирм по стоимости основного капитала (млн руб.)

Стоимость основного капитала
в млн руб. (Х)

Число фирм
(частота) (f)

Накопленные частоты
(кумулятивные)

Согласно данному распределению получили вариационный интервальный ряд, из которого следует, что 36 фирм имеют основной капитал стоимостью от 10 до 24 млн руб. и т.д.

Интервальные ряды распределения можно представить графически в виде гистограммы.

Результаты обработки данных оформляются в статистические таблицы . Статистические таблицы содержат свое подлежащее и сказуемое.

Подлежащее – это та совокупность или часть совокупности, которая подвергается характеристике.

Сказуемое – это показатели, характеризующие подлежащее.

Таблицы различают: простые и групповые, комбинационные, с простой и сложной разработкой сказуемого.

Простая таблица в подлежащем содержит перечень отдельных единиц.

Если же в подлежащем имеется группировка единиц, то такая таблица называется групповой. Например, группа предприятий по числу рабочих, группы населения по полу.

В подлежащем комбинационной таблицы содержится группировка по двум или нескольким признакам. Например, население по полу разделяется на группы по образованию, возрасту и т.д.

Комбинационные таблицы содержат информацию, позволяющую выявить и охарактеризовать взаимосвязь ряда показателей и закономерность их изменения как в пространстве, так и во времени. Чтобы таблица была наглядной при разработке ее подлежащего, ограничиваются двумя-тремя признаками, образуя по каждому из них ограниченное число групп.

Сказуемое в таблицах может быть разработано по-разному. При простой разработке сказуемого все его показатели располагаются независимо друг от друга.

При сложной разработке сказуемого показатели сочетаются друг с другом.

При построении любой таблицы нужно исходить из целей исследования и содержания обработанного материала.

Кроме таблиц в статистике используются графики и диаграммы. Диаграмма – статистические данные изображаются с помощью геометрических фигур. Диаграммы подразделяются на линейные и столбиковые, но могут быть фигурные диаграммы (рисунки и символы), круговые диаграммы (окружность принимается за величину всей совокупности, а площади отдельных секторов отображают удельный вес или долю ее составных частей), радиальные диаграммы (строятся на базе полярных ординат). Картограмма представляет собой сочетание контурной карты или плана местности с диаграммой.

Дискретный вариационный ряд строится для дискретный признаков.

Для того, чтобы построить дискретный вариационный ряд нужно выполнить следующие действия: 1) упорядочить единицы наблюдения по возрастанию изучаемого значения признака,

2) определить все возможные значения признака x i , упорядочить их по возрастанию,

значением признака, i .

частота значения признака и обозначают f i . Сумма всех частот ряда равна количеству элементов в изучаемой совокупности.

Пример 1 .

Список оценок полученных студентами на экзаменах: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Здесь число Х – оценка является дискретной случайной величиной, а полученный список оценок - статистические (наблюдаемые) данные .

    упорядочить единицы наблюдения по возрастанию изучаемого значения признака:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) определить все возможные значения признака x i , упорядочить их по возрастанию:

В данном примере все оценки можно разделить на четыре группы со следующими значениями: 2; 3; 4; 5.

Значение случайной величины, соответствующее отдельной группе наблюдаемых данных, называют значением признака, вариантом (вариантой) и обознпчают x i .

Число, которое показывает, сколько раз встречается соответствующее значение признака в ряде наблюдений называют частота значения признака и обозначают f i .

Для нашего примера

оценка 2 встречается - 8 раз,

оценка 3 встречается - 12 раз,

оценка 4 встречается - 23 раза,

оценка 5 встречается - 17 раз.

Всего 60 оценок.

4) записать полученные данные в таблицу из двух строк (столбцов) - x i и f i .

На основании этих данных можно построить дискретный вариационный ряд

Дискретный вариационный ряд – это таблица, в которой указаны встречающиеся значения изучаемого признака как отдельные значения по возрастанию и их частоты

  1. Построение интервального вариационного ряда

Кроме дискретного вариационного ряда часто встречается такой способ группировки данных, как интервальный вариационный ряд.

Интервальный ряд строится если:

    признак имеет непрерывный характер изменения;

    дискретных значений получилось очень много (больше 10)

    частоты дискретных значений очень малы (не превышают 1-3 при относительно большем количестве единиц наблюдения);

    много дискретных значений признака с одинаковыми частотами.

Интервальный вариационный ряд – это способ группировки данных в виде таблицы, которая имеет две графы (значения признака в виде интервала значений и частота каждого интервала).

В отличие от дискретного ряда значения признака интервального ряда представлены не отдельными значениями, а интервалом значений («от - до»).

Число, которое показывает, сколько единиц наблюдения попало в каждый выделенный интервал, называется частота значения признака и обозначают f i . Сумма всех частот ряда равна количеству элементов (единиц наблюдения) в изучаемой совокупности.

Если единица обладает значением признака, равным величине верхней границы интервала, то ее следует относить к следующему интервалу.

Например, ребёнок с ростом 100 см попадёт во 2-ой интервал, а не в первый; а ребёнок с ростом 130 см попадёт в последний интервал, а не в третий.

На основании этих данных можно построить интервальный вариационный ряд.

У каждого интервала есть нижняя граница (х н), верхняя граница (х в) и ширина интервала (i ).

Граница интервала – это значение признака, которое лежит на границе двух интервалов.

рост детей (см)

рост детей (см)

количество детей

больше 130

Если у интервала есть верхняя и нижняя граница, то он называется закрытый интервал . Если у интервала есть только нижняя или только верхняя граница, то это – открытый интервал. Открытым может быть только самый первый или самый последний интервал. В приведённом примере последний интервал – открытый.

Ширина интервала (i ) – разница между верхней и нижней границей.

i = х н - х в

Ширина открытого интервала принимается такой же, как ширина соседнего закрытого интервала.

рост детей (см)

количество детей

Ширина интервала (i)

для расчётов 130+20=150

20 (потому что ширина соседнего закрытого интервала – 20)

Все интервальные ряды делятся на интервальные ряды с равными интервалами и интервальные ряды с неравными интервалами. В интервальных рядах с равными интервалами ширина всех интервалов одинаковая. В интервальных рядах с неравными интервалами ширина интервалов разная.

В рассматриваемом примере - интервальный ряд с неравными интервалами.

Число групп (интервалов) приближенно определяется по формуле Стерджесса:

m = 1 + 3,322 × lg(n)

где n - общее число единиц наблюдения (общее количество элементов в совокупности и т.д.), lg(n) – десятичный логарифм от n.

Полученную по формуле Стерджесса величину округляют обычно до целого большего числа, поскольку количество групп не может быть дробным числом.

Если ряд интервальный ряд с таким количеством групп по каким-то критериям не устраивает, то можно построить другой интервальный ряд, округлив m до целого меньшего числа и выбрать из двух рядов более подходящий.

Число групп не должно быть больше 15.

Также можно пользоваться следующей таблицей, если совсем нет возможности вычислить десятичный логарифм.

    Определяем ширину интервала

Ширина интервала для интервального вариационного ряда с равными интервалами определяется по формуле:

где X макс - максимальное из значений x i , X мин - минимальное из значений x i ; m - число групп (интервалов).

Величину интервала (i ) обычно округляют до целого числа, исключение составляют лишь случаи, когда изучаются малейшие колебания признака (например, при группировке деталей по величине размера отклонений от номинала, измеряемого в долях миллиметра).

Часто применяется следующее правило:

Количество знаков до запятой

Количество знаков после запятой

Пример ширины интервала по формуле

До какого знака округляем

Пример округленной ширины интервала

    Определяем границы интервалов

Нижнюю границу первого интервала принимают равной минимальному значению признака (чаще всего его предварительно округляют до целого меньшего числа с таким же разрядом как ширина интервала). Например, х мин = 15, i=130, х н первого интервала = 10.

х н1 ≈ х мин

Верхняя граница первого интервала соответствует значению (Хmin + i ).

Нижняя граница второго интервала всегда равно верхней границе первого интервала. Для последующих групп границы определяются аналогично, т е. последовательно прибавляется величина интервала.

x в i = x н i + i

x н i = x в i-1

    Определяем частоты интервалов.

Считаем, сколько значений попало в каждый интервал. При этом помним, что если единица обладает значением признака, равным величине верхней границы интервала, то ее следует относить к следующему интервалу.

    Строим интервальный ряд в виде таблицы.

    Определяем середины интервалов.

Для дальнейшего анализа интервального ряда понадобится выбрать значение признака для каждого интервала. Это значение признака будет общим для всех единиц наблюдения, попавшим в этот интервал. Т.е. отдельные элементы «теряют» свои индивидуальные значения признака и им присваивается одно общее значение признака. Таким общим значением является середина интервала , которая обозначается x" i .

Рассмотрим на примере с ростом детей, как построить интервальный ряд с равными интервалами.

Имеются первоначальные данные.

90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , 92, 93, 94, 95, 96, 98 , , 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 , 100, 101, 102, 104 , 110, 112, 114, 116, 117, 120, 122, 123, 124, 129, 110, 111, 113, 115, 116, 117, 121, 125, 126, 127 , 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 , 111, 113, 116, 127 , 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150 , 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148

Лабораторная работа №1

По математической статистике

Тема: Первичная обработка экспериментальных данных

3. Оценка в баллах. 1

5. Контрольные вопросы.. 2

6. Методика выполнения лабораторной работы.. 3

Цель работы

Приобретение навыков первичной обработки эмпирических данных методами математической статистики.

На основе совокупности опытных данных выполнить следующие задания:

Задание 1. Построить интервальный вариационный ряд распределения.

Задание 2. Построить гистограмму частот интервального вариационного ряда.

Задание 3. Составить эмпирическую функцию распределения и построить график.

а) моду и медиану;

б) условные начальные моменты;

в) выборочную среднюю;

г) выборочную дисперсию, исправленную дисперсию генеральной совокупности, исправленное среднее квадратичное отклонение;

д) коэффициент вариации;

е) асимметрию;

ж) эксцесс;

Задание 5. Определить границы истинных значений числовых характеристик, изучаемой случайной величины с заданной надёжностью.

Задание 6. Содержательная интерпретация результатов первичной обработки по условию задачи.

Оценка в баллах

Задания 1-5 6 баллов

Задание 6 2 балла

Защита лабораторной работы (устное собеседование по контрольным вопросам и лабораторной работе) - 2 балла

Работа сдается в письменной форме на листах формата А4 и включает:

1) Титульный лист (Приложение 1)

2) Исходные данные.

3) Представление работы по указанному образцу.

4) Результаты расчетов (выполненные вручную и/или с помощью MS Excel) в указанном порядке.

5) Выводы - содержательная интерпретация результатов первичной обработки по условию задачи.

6) Устное собеседование по работе и контрольным вопросам.



5. Контрольные вопросы


Методика выполнения лабораторной работы

Задание 1. Построить интервальный вариационный ряд распределения

Для того, чтобы статистические данные представить в виде вариационного ряда с равноотстоящими вариантами необходимо:

1.В исходной таблице данных найти наименьшее и наибольшее значения.

2.Определить размах варьирования :

3. Определить длину интервала h, если в выборке до 1000 данных, используют формулу: , где n – объем выборки – количество данных в выборке; для вычислений берут lgn).

Вычисленное отношение округляют до удобногоцелого значения .

4. Определить начало первого интервала для четного числа интервалов рекомендуют брать величину ; а для нечетного числа интервалов .

5. Записать интервалы группировок и расположить их в порядке возрастания границ

, ,………., ,

где - нижняя граница первого интервала. За берется удобное число не большее , верхняя граница последнего интервала должна быть не меньше . Рекомендуется, чтобы интервалы содержали в себе исходные значения случайной величины и выделять от 5 до 20 интервалов.

6. Записать исходные данные по интервалам группировок, т.е. подсчитать по исходной таблице число значений случайной величины, попадающих в указанные интервалы. Если некоторые значения совпадают с границами интервалов, то их относят либо только к предыдущему, либо только к последующему интервалу.

Замечание 1. Интервалы необязательно брать равными по длине. На участках, где значения располагаются гуще, удобнее брать более мелкие короткие интервалы, а там где реже - более крупные.

Замечание 2 .Если для некоторых значений получены “нулевые”, либо малые значения частот , то необходимо перегруппировать данные, укрупняя интервалы (увеличивая шаг ).