Важнейшей частью статистического анализа является построение рядов распределения (структурной группировки) с целью выделения характерных свойств и закономерностей изучаемой совокупности. В зависимости от того, какой признак (количественный или качественный) взят за основу группировки данных, различают соответственно типы рядов распределения.

Если за основу группировки взят качественный признак, то такой ряд распределения называют атрибутивным (распределение по видам труда, по полу, по профессии, по религиозному признаку, национальной принадлежности и т.д.).

Если ряд распределения построен по количественному признаку, то такой ряд называют вариационным . Построить вариационный ряд - значит упорядочить количественное распределение единиц совокупности по значениям признака, а затем подсчитать числа единиц совокупности с этими значениями (построить групповую таблицу).

Выделяют три формы вариационного ряда: ранжированный ряд, дискретный ряд и интервальный ряд.

Ранжированный ряд - это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака. Ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются.

Другие формы вариационного ряда - групповые таблицы, составленные по характеру вариации значений изучаемого признака. По характеру вариации различают дискретные (прерывные) и непрерывные признаки.

Дискретный ряд - это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением (дискретные признаки). К последним можно отнести тарифный разряд, количество детей в семье, число работников на предприятии и т.д. Эти признаки могут принимать только конечное число определенных значений.

Дискретный вариационный ряд представляет таблицу, которая состоит из двух граф. В первой графе указывается конкретное значение признака, а во второй - число единиц совокупности с определенным значением признака.

Если признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость основных фондов предприятия и т.д., которые в определенных границах могут принимать любые значения), то для этого признака нужно строить интервальный вариационный ряд .

Групповая таблица здесь также имеет две графы. В первой указывается значение признака в интервале «от - до» (варианты), во второй - число единиц, входящих в интервал (частота).

Частота (частота повторения) - число повторений отдельного варианта значений признака, обозначается fi , а сумма частот, равная объему исследуемой совокупности, обозначается

где k - число вариантов значений признака

Очень часто таблица дополняется графой, в которой подсчитываются накопленные частоты S, которые показывают, какое количество единиц совокупности имеет значение признака не большее, чем данное значение.

Частоты ряда f могут заменяться частостями w, выраженными в относительных числах (долях или процентах). Они представляют собой отношения частот каждого интервала к их общей сумме, т.е.:

При построении вариационного ряда с интервальными значениями прежде всего необходимо установить величину интервала i, которая определяется как отношение размаха вариации R к числу групп m:

где R = xmax - xmin ; m = 1 + 3,322 lgn (формула Стерджесса); n - общее число единиц совокупности.

Для определения структуры совокупности используют особые средние показатели, к которым относятся медиана и мода, или так называемые структурные средние. Если средняя арифметическая рассчитывается на основе использования всех вариантов значений признака, то медиана и мода характеризуют величину того варианта, который занимает определенное среднее положение в ранжированном вариационном ряду.

Медиана (Ме) - это величина, которая соответствует варианту, находящемуся в середине ранжированного ряда.

Для ранжированного ряда с нечетным числом индивидуальных величин (например, 1, 2, 3, 3, 6, 7, 9, 9, 10) медианой будет величина, которая расположена в центре ряда, т.е. пятая величина.

Для ранжированного ряда с четным числом индивидуальных величин (например, 1, 5, 7, 10, 11, 14) медианой будет средняя арифметическая величина, которая рассчитывается из двух смежных величин.

То есть для нахождения медианы сначала необходимо определить ее порядковый номер (ее положение в ранжированном ряду) по формуле

где n - число единиц в совокупности.

Численное значение медианы определяют по накопленным частотам в дискретном вариационном ряду. Для этого сначала следует указать интервал нахождения медианы в интервальном ряду распределения. Медианным называют первый интервал, где сумма накопленных частот превышает половину наблюдений от общего числа всех наблюдений.

Численное значение медианы

где xМе - нижняя граница медианного интервала; i - величина интервала; S-1 - накопленная частота интервала, которая предшествует медианному; f - частота медианного интервала.

Модой (Мо) называют значение признака, которое встречается наиболее часто у единиц совокупности. Для дискретного ряда модой будет являться вариант с наибольшей частотой. Для определения моды интервального ряда сначала определяют модальный интервал (интервал, имеющий наибольшую частоту). Затем в пределах этого интервала находят то значение признака, которое может являться модой.

Чтобы найти конкретное значение моды, необходимо использовать формулу

где xМо - нижняя граница модального интервала; iМо - величина модального интервала; fМо - частота модального интервала; fМо-1 - частота интервала, предшествующего модальному; fМо+1 - частота интервала, следующего за модальным.

Мода имеет широкое распространение в маркетинговой деятельности при изучении покупательского спроса, особенно при определении пользующихся наибольшим спросом размеров одежды и обуви, при регулировании ценовой политики.

Основной целью анализа вариационных рядов является выявление закономерности распределения, исключая при этом влияние случайных для данного распределения факторов. Этого можно достичь, если увеличивать объем исследуемой совокупности и одновременно уменьшать интервал ряда. При попытке изображения этих данных графически мы получим некоторую плавную кривую линию, которая для полигона частот будет являться некоторым пределом. Эту линию называют кривой распределения.

Иными словами, кривая распределения есть графическое изображение в виде непрерывной линии изменения частот в вариационном ряду, которое функционально связано с изменением вариант. Кривая распределения отражает закономерность изменения частот при отсутствии случайных факторов. Графическое изображение облегчает анализ рядов распределения.

Известно достаточно много форм кривых распределения, по которым может выравниваться вариационный ряд, но в практике статистических исследований наиболее часто используются такие формы, как нормальное распределение и распределение Пуассона.

Нормальное распределение зависит от двух параметров: средней арифметической и среднего квадратического отклонения . Его кривая выражается уравнением

где у - ордината кривой нормального распределения; - стандартизованные отклонения; е и π - математические постоянные; x - варианты вариационного ряда; - их средняя величина; - cреднее квадратическое отклонение.

Если нужно получить теоретические частоты f" при выравнивании вариационного ряда по кривой нормального распределения, то можно воспользоваться формулой

где - сумма всех эмпирических частот вариационного ряда; h - величина интервала в группах; - cреднее квадратическое отклонение; - нормированное отклонение вариантов от средней арифметической; все остальные величины легко вычисляются по специальным таблицам.

При помощи этой формулы мы получаем теоретическое (вероятностное) распределение , заменяя им эмпирическое (фактическое) распределение , по характеру они не должны отличаться друг от друга.

Тем не менее в ряде случаев, если вариационный ряд представляет собой распределение по дискретному признаку, где при увеличении значений признака х частоты начинают резко уменьшаться, а средняя арифметическая, в свою очередь, равна или близка по значению к дисперсии (), такой ряд выравнивается по кривой Пуассона.

Кривую Пуассона можно выразить отношением

где Px - вероятность наступления отдельных значений х; - средняя арифметическая ряда.

При выравнивании эмпирических данных теоретические частоты можно определить по формуле

где f" - теоретические частоты; N - общее число единиц ряда.

Сравнивая полученные величины теоретических частот f" c эмпирическими (фактическими) частотами f, убеждаемся, что их расхождения могут быть весьма невелики.

Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия.

Для оценки близости эмпирических и теоретических частот применяются критерий согласия Пирсона, критерий согласия Романовского, критерий согласия Колмогорова.

Наиболее распространенным является критерий согласия К. Пирсона , который можно представить как сумму отношений квадратов расхождений между f" и f к теоретическим частотам:

Вычисленное значение критерия необходимо сравнить с табличным (критическим) значением . Табличное значение определяется по специальной таблице, оно зависит от принятой вероятности Р и числа степеней свободы k (при этом k = m - 3, где m - число групп в ряду распределения для нормального распределения). При расчете критерия согласия Пирсона должно соблюдаться следующее условие: достаточно большим должно быть число наблюдений (n 50), при этом если в некоторых интервалах теоретические частоты < 5, то интервалы объединяют для условия > 5.

Если , то расхождения между эмпирическими и теоретическими частотами распределения могут быть случайными и предположение о близости эмпирического распределения к нормальному не может быть отвергнуто.

В том случае, если отсутствуют таблицы для оценки случайности расхождения теоретических и эмпирических частот, можно использовать критерий согласия В.И. Романовского КРом, который, используя величину , предложил оценивать близость эмпирического распределения кривой нормального распределения при помощи отношения

где m - число групп; k = (m - 3) - число степеней свободы при исчислении частот нормального распределения.

Если вышеуказанное отношение < 3, то расхождения эмпирических и теоретических частот можно считать случайными, а эмпирическое распределение - соответствующим нормальному. Если отношение > 3, то расхождения могут быть достаточно существенными и гипотезу о нормальном распределении следует отвергнуть.

Критерий согласия А.Н. Колмогорова используется при определении максимального расхождения между частотами эмпирического и теоретического распределения, вычисляется по формуле

где D - максимальное значение разности между накопленными эмпирическими и теоретическими частотами; - сумма эмпирических частот.

По таблицам значений вероятностей -критерия можно найти величину , соответствующую вероятности Р. Если величина вероятности Р значительна по отношению к найденной величине , то можно предположить, что расхождения между теоретическим и эмпирическим распределениями несущественны.

Необходимым условием при использовании критерия согласия Колмогорова является достаточно большое число наблюдений (не меньше ста).

Первым этапом статистического изучения вариации являются построение вариационного ряда - упорядоченного распределения единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.

Существуют три формы вариационного ряда: ранжированный ряд, дискретный ряд, интервальный ряд. Вариационный ряд часто назы-вают рядом распределения. Этот термин используется при изучении вариации как количественных, так и неколичественных признаков. Ряд распределения представляет собой структурную группировку (см. гл. 6).

Ранжированный ряд - это перечень отдельных единиц совокупности в порядке возрастания (убывания) изучаемого признака.

Примером ранжированного ряда может служить табл. 5.5.

Таблица 5.5

Крупные банки Санкт-Петербурга, ранжированные по размерам собственного капитала на 01.07.96

Если численность единиц совокупности достаточно велика, ранжированный ряд становится громоздким, а его построение, даже с помощью ЭВМ, занимает длительное время. В таких случаях вариационный ряд строится с помощью группировки единиц совокупности по значениям изучаемого признака.

Если признак принимает небольшое число значений, строится дискретный вариационный ряд. Примером такого ряда является распределение футбольных матчей по числу забитых мячей (табл. 5.1). Дискретный вариационный ряд - это таблица, состоящая из двух строк или граф: конкретных значений варьирующего признака х i и числа единиц совокупности с данным значением признака f i частот (f - начальная буква англ. слова frequency).

Определение числа групп

Число групп в дискретном вариационном ряду определяется числом реально существующих значений варьирующего признака. Если же признак может принимать хотя и дискретные значения, но их число очень велико (например, поголовье скота на 1 января года в разных сельхозпредприятиях может составлять от нуля до десятков тысяч голов), тогда строится интервальный вариационный ряд. Интервальный вариационный ряд строится и для изучения признаков, которые могут принимать любые, как целые, так и дробные, значения в области своего существования. Таковы, например, рентабельность реализованной продукции, себестоимость единицы продукции, доход на 1 жителя города, доля лиц с высшим образованием среди населения разных территорий и вообще все вторичные признаки, значения которых рассчитываются путем деления величины одного первичного признака на величину другого (см. гл. 3).

Интервальный вариационный ряд представляет собой таблицу, (состоящую из двух граф (или строк) - интервалов признака, вариация которого изучается, и числа единиц совокупности, попадающих в данный интервал (частот), или долей этого числа от общей численности совокупности (частостей).

При построении интервального вариационного ряда необходимо выбрать оптимальное число групп (интервалов признака) и установить длину интервала. Поскольку при анализе вариационного ряда сравнивают частоты в разных интервалах, необходимо, чтобы величина интервала была постоянной. Оптимальное число групп выбирается так, чтобы в достаточной мере отразилось разнообразие значений признака в совокупности и в то же время закономерность распределения, его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, не проявится закономерность вариации; если групп будет чрезмерно много, случайные скачки частот исказят форму распределения.

Чаще всего число групп в вариационном ряду устанавливают, придерживаясь формулы, рекомендованной американским статистиком Стерджессом (Sturgess ):

где k - число групп; n - численность совокупности.

Эта формула показывает, что число групп - функция объема данных.

Предположим, необходимо построить вариационный ряд распределения предприятий области по урожайности зерновых культур за какой-то год. Число сельхозпредприятий, имевших посевы зерновых культур, составило 143; наименьшее значение урожайности равно 10,7 ц/га, наибольшее - 53,1 ц/га. Имеем:

Так как число групп целое, следовательно, рекомендуется построить 8 или 9 групп.

Определение величины интервала

Зная число групп, рассчитывают величину интервала:

В нашем примере величина интервала составляет:

а) при 8 группах

б) при 9 группах

Для построения ряда и анализа вариации значительно лучше иметь по возможности округленные значения величины интервала и его границ. Поэтому наилучшим решением будет построение вариационного ряда с 9 группами с интервалом, равным 5 ц/га. Этот вариационный ряд приведен в табл. 5.6, а его графическое изображение дано на рис. 5.1.

Границы интервалов могут указываться разным образом: верхняя граница предыдущего интервала повторяет нижнюю границу следующего, как показано в табл. 5.6, или не повторяет.

В последнем случае второй интервал будет обозначен как 15,1-20, третий как 20,1-25 и т.д., т.е. предполагается, что все значения урожайности обязательно округлены до одной десятой. Кроме того, возникает нежелательное осложнение с серединой интер- вала 15,1-20, которая, строго говоря, уже будет равна не 17,5, а 17,55; соответственно при замене округленного интервала 40-60 на 40,1-6,0 вместо округленного значения его середины 50 получим 50,5, Поэтому предпочтительнее оставить интервалы с повторяющейся округленной границей и договориться, что единицы совокупности, имеющие значение признака, равное границе интервала, включаются в тот интервал, где это точное значение впервые указывается. Так, хозяйство, имеющее урожайность, равную 15 ц/га, включается в первую группу, значение 20 ц/га -во вторую и т. д.

Рис. 5.1. Распределение хозяйств по урожайности

Таблица 5.6

Распределение хозяйств области по урожайности зерновых культур

Группы хозяйств по урожайности,

ц/га х j

Число хозяйств

Середина интервала,

ц/га х j "

Накопленная частота f ’ j

Графическое изображение вариационного ряда

Существенную помощь в анализе вариационного ряда и его свойств оказывает графическое изображение. Интервальный ряд изображается столбиковой диаграммой, в которой основания столбиков, расположенные на оси абсцисс, - это интервалы значений варьирующего признака, а высоты столбиков - частоты, -соответствующие масштабу по оси ординат. Графическое изображение распределения хозяйств области по урожайности зерновых культур приведено на рис. 5.1. Диаграмма этого рода часто называется гистограммой (от греческого слова «гистос» - ткань, строение).

Данные табл. 5.5 и рис. 5.1 показывают характерную для многих признаков форму распределения: чаще встречаются значения средних интервалов признака, реже - крайние; малые и большие значения признака. Форма этого распределения близка к рассматриваемому в курсе математической статистики закону нормального распределения. Великий русский математик А. М. Ляпунов (1857 - 1918) доказал, что нормальное распределение образуется, если на варьирующую переменную влияет большое число факторов, ни один из которых не имеет преобладающего влияния. Случайное сочетание множества примерно равных факторов, влияющих на вариацию урожайности зерновых культур, как природных, так и агротехнических, экономических, создает близкое к нормальному закону распределения распределение хозяйств области по урожайности.

Если имеется дискретный вариационный ряд или используются середины интервалов, то графическое изображение такого вариационного ряда называется полигоном (от греч. слова - многоугольник). Каждый из вас легко построит этот график, соединяя прямыми точки с координатами х, и /.

Отношение высоты полигона или диаграммы к их основанию рекомендуется в пропорции примерно 5:8.

Понятие частости

Если в табл. 5.6 число хозяйств с тем или иным уровнем урожайности выразить в процентах к итогу, принимая все число хозяйств (143) за 100%, то средняя урожайность может быть вычислена так:

где w - частость 7-й категории вариационного ряда;

Кумулятивное распределение

Преобразованной формой вариационного ряда является ряд накопленных частот, приведенный в табл. 5.6, графа 5. Это ряд значений числа единиц совокупности с меньшими и равными нижней границе соответствующего интервала значениями признака. Такой ряд называется кумулятивным. Можно построить кумулятивное распределение «не меньше, чем», а можно «больше, чем». В первом случае график кумулятивного распределения называется кумулятой, во втором - огивой (рис. 5.2).

Плотность, распределения

Если приходится иметь дело с вариационным рядом с неравными интервалами, то для сопоставимости нужно частоты или частости привести к единице интервала. Полученное отношение называется плотностью распределения:

Плотность распределения используется как для расчета обобщающих показателей, так и для графического изображения вариационных рядов с неравными интервалами.

Рис. 5.2. Огива и кумулята распределения по урожайности

5.7. Структурные характеристики вариационного ряда

Медиана распределения

При изучении вариации применяются такие характеристики вариационного ряда, которые описывают количественно его структуру, строение. Такова, например, медиана- величина варьирующего признака, делящая совокупность на две равные части ~ со значениями признака меньше медианы И со значениями признака больше медианы (третьего банка из пяти в табл. 5.5, т.е. 196 млрд руб.).

На примере табл. 5.5 видно принципиальное различие между медианой и средней величиной. Медиана не зависит от значений признака на краях ранжированного ряда. Если бы даже капитал крупнейшего банка Санкт-Петербурга был вдесятеро больше, величина медианы не изменилась бы. Поэтому часто медиану используют как более надежный показатель типичного значения признака, нежели арифметическая средняя, если ряд значений неоднороден, включает резкие отклонения от средней. В данном ряду средняя величина собственного капитала, равная 269 млрд руб., сложилась под большим влиянием наибольшей варианты. 80% банков имеют капитал меньше среднего и лишь 20% - больше. Вряд ли такую среднюю можно считать типичной величиной. При четном числе единиц совокупности за медийну принимают арифметическую среднюю величину из двух центральных вариант, например при десяти значениях признака - среднюю из пятого и шестого значений в ранжированном ряду.

В интервальном вариационном ряду для нахождения медианы применяется формула (5.14).

где Me - медиана;

х 0 - нижняя граница интервала, в котором находится медиана;

f M е-1 - накопленная частота в интервале, предшествующем медианному;

f Me - частота в медианном интервале;

i - величина интервала;

k - число групп.

В табл. 5,6 медианным является среднее из 143 значений, т.е. семьдесят-второе от начала ряда значение урожайности. Как видно из ряда накопленных частот, оно находится в четвертом интервале. Тогда

При нечетном числе единиц совокупности номер медианы, как видим, равен не , как в формуле (5.14), a , но это различие несущественно и обычно игнорируется на практике.

В дискретном вариационном ряду медианой следует считать значение признака в той группе, в которой накопленная частота;

превышает половину численности совокупности. Например, для, данных табл. 5.1 медианой числа забитых за игру мячей будет 2.

Квартили распределения

Аналогично медиане вычисляются значения признака, делящие совокупность на четыре равные по числу единиц части. Эти величины называются квартилями и обозначаются заглавной латинской" буквой Q с подписным значком номера квартиля. Ясно, что Q 2 совпадает с Me. Для первого и третьего квартилей приводим формулы и расчет по данным табл. 5.6.

Так как Q 2 = Me = 29,5 ц/га, видно, что различие между первым квартилем и медианой меньше, чем между медианой и третьим квартилем. Этот факт свидетельствует о наличии некоторой несимметричности в средней области распределения, что заметно и на рис. 5.1.

Значения признака, делящие ряд на пять равных частей, называют квинтилями, на десять частей - децилями, на сто частей -перцентилями. Поскольку эти характеристики применяются лишь при необходимости подробного изучения структуры вариационного ряда, приводить их формулы и расчет не будем.

Мода распределения

Бесспорно, важное значение имеет такая величина признака, которая встречается в изучаемом ряду, в совокупности чаще всего. Такую величину принято называть модой и обозначать Мо. В дискретном ряду мода определяется без вычисления как значение признака с наибольшей частотой. Например, по данным табл. 5.1 чаще всего за футбольный матч было забито 2 мяча - 71 раз. Модой является число 2. Обычно встречаются ряды с одним модальным значением признака. Если два или несколько равных (и даже несколько различных, но больших, чем соседние) значений признака имеются в вариационном ряду, он считается соответственно бимодальным («верблюдообразным») либо мультимодальным. Это говорит о неоднородности совокупности, возможно, представляющей собой агрегат нескольких совокупностей с разными модами.

Так и в толпе туристов, приехавших из разных стран, вместо одной, преобладающей среди местных жителей модной одежды можно встретить смесь разных «мод», принятых у разных народов мира.

В интервальном вариационном ряду, тем более при непрерывной вариации признака, строго говоря, каждое значение признака встречается только один раз. Модальным интервалом является интервал с наибольшей частотой.. Внутри этого интервала находят условное значение признака, вблизи которого плотность распределения, т.е. число единиц совокупности, приходящееся на единицу измерения варьирующего признака, достигает максимума. Это условное значение и считается точечной модой. Логично предположить, что такая точечная мода располагается ближе к той из границ интервала, за которой частота в соседнем интервале больше частоты в интервале за другой границей модального интервала. Отсюда имеем обычно применяемую формулу (5.15):

где x 0 - нижняя граница модального интервала;

f Mo - частота в модальном интервале;

f Mo -1 - частота в предыдущем интервале;

f Mo +1 - частота в следующем интервале за модальным;

i - величина интервала.

По данным табл. 5.6 рассчитаем моду:

Вычисление моды в интервальном ряду весьма условно. Приближенно Мо может быть определена графически (см. рис. 5.1).

К изучению структуры вариационного ряда средняя арифметическая величина тоже имеет отношение, хотя основное значение этого обобщающего показателя другое. В ряду распределения хозяйств по урожайности (табл. 5.6) средняя величина урожайности вычисляется как взвешенная по частоте середина интервалов х (по формуле (5.2)):

Соотношение между средней величиной, медианой и модой

Различие между средней арифметической величиной, медианой и модой в данном распределении невелико. Если распределение по форме близко к нормальному закону, то медиана находится между, модой и средней величиной, причем ближе к средней, чем к моде.

При правосторонней асимметриих ̅ > Me > Mo;

при левосторонней асимметрии х ̅ < Me < Mo.

Для умеренно асимметричных распределений справедливо равенство:

5.8. Показатели размера и интенсивности вариации

Абсолютные средние размеры вариации

Следующим этапом изучения вариации признака в совокупности является измерение характеристик силы, величины вариации. Простейшим из них может служить размах или амплитуда вариации - абсолютная разность между максимальным и минимальным значениями признака из имеющихся в изучаемой совокупности значений. Таким образом, размах вариации вычисляется по формуле

Поскольку величина размаха характеризует лишь максимальное различие значений признака, она не может измерять закономерную силу его вариации во всей совокупности. Предназначенный для данной цели показатель должен учитывать и обобщать все различия значений признака в совокупности без исключения. Число таких различий равно числу сочетаний по два из всех единиц совокупности; по данным табл. 5.6 оно составит: С^ = 10 153. Однако нет необходимости рассматривать, вычислять и осреднять все отклонения. Проще использовать среднюю из отклонений отдельных значений признака от среднего арифметического значения признака, а таковых всего 143. Но среднее отклонение значений признака от средней арифметической величины согласно известному свойству последней равно нулю. Поэтому показателем силы вариации выступает не алгебраическая средняя отклонений, а средний модуль отклонений:

По данным табл. 5.6 средний модуль, или среднее линейное отклонение, по абсолютной величине вычисляется как взвешенное по частоте отклонение по модулю середин интервалов от средней арифметической величины, т.е. по формуле

Это означает, что в среднем урожайность в изучаемой совокупности хозяйств отклонялась от средней урожайности по области на 6,85 ц/га. Простота расчета и интерпретации составляют положительные стороны данного показателя, однако математические свойства модулей «плохие»: их нельзя поставить в соответствие с каким-либо вероятностным законом, в том числе и с нормальным распределением, параметром которого является не средний модуль отклонений, а среднее квадратическое отклонение (в англоязычных программах для ЭВМ называемое «the standard deviation», сокращенно «s.d.» или просто « s », в русскоязычных - СКО). В статистической литературе среднее квадратическое отклонение от средней величины принято обозначать малой (строчной) греческой буквой сигма (ст) или s (см. гл. 7):

для ранжированного ряда

для интервального ряда

По данным табл. 5.6 среднее квадратическое отклонение урожайности зерновых составило:

Следует указать, что некоторое округление средней величины и середин интервалов, например до целых, мало отражается на величине σ, которая составила бы при этом 8,55 ц/га.

Среднее квадратическое отклонение по величине в реальных совокупностях всегда больше среднего модуля отклонений. Соотношение (у: а зависит от наличия в совокупностях резких, выделяющихся отклонений и может служить индикатором «засоренности» совокупности неоднородными с основной массой элементами: чем это соотношение больше, тем сильнее подобная «засоренность». Для нормального закона распределения σ : а = 1,2.

Понятие дисперсии

Квадрат среднего квадратического отклонения дает величину дисперсии σ 2 . Формула дисперсии:

простая (для несгруппйрованных данных):

взвешенная (для сгруппированных данных):

На дисперсии основаны практически все методы математической статистики. Большое практическое значение имеет правило сложения дисперсий (см. гл. 6).

Другие меры вариации

Еще одним показателем силы вариации, характеризующим ее не по всей совокупности, а лишь в ее центральной части, служит среднее квартцлъное расстояние, т.е. средняя величина разности между квартилями, обозначаемое далее как q:

Для распределения сельхозпредприятий по урожайности в табл. 5.2

q = (36,25 - 25,09): 2 = 5,58 ц/га. Сила вариации в центральной части совокупности, как правило, меньше, чем в целом по всей совокупности. Соотношение между средним модулем отклонений и средним квартальным отклонением также служит для изучения структуры вариации: большое значение такого соотношения говорит о наличии слабоварьирующего «ядра» и сильно рассеянного вокруг этого ядра окружения, или «гало» в изучаемой совокупности. Для данных табл. 5.6 соотношение а: q = 1,23, что говорит о небольшом различии силы вариации в центральной части совокупности и на ее периферии.

Для оценки интенсивности вариации и для сравнения ее в разных совокупностях и тем более для разных признаков необходимы относительные показатели вариации. Они вычисляются как отношения абсолютных показателей силы вариации, рассмотренных ранее, к средней арифметической величине признака. Получаем следующие показатели:

1) относительный размах вариации р:

2) относительное отклонение по модулю т:

3) коэффициент вариации как относительное квадратическое отклонение v :

4) относительное квартальное расстояние d:

где q - среднее квартильное расстояние.

Для вариации урожайности по данным табл. 5,6 эти показатели составляют:

ρ = 42,4: 30,3 = 1,4, или 140%;

т = 6,85: 30,3 = 0,226, или 22,6%;

v = 8,44: 30,3 = 0,279,или 27,9%;

d = 5,58: 30,3 = 0,184,или 18,4%.

Оценка степени интенсивности вариации возможна только для каждого отдельного признакам совокупности определенного состава. Так, для совокупности сельхозпредприятий вариация урожайности в одном и том же природном регионе может быть оценена как слабая, если v < 10%, умеренная при 10% < v < 25% и сильная при v > 25%.

Напротив, вариация роста в совокупности взрослых мужчин или женщин уже при коэффициенте, равном 7%, должна быть оценена и воспринимается людьми как сильная. Таким образом, оценка интенсивности вариации состоит в сравнении наблюдаемой вариации с некоторой обычной ее интенсивностью, принимаемой за норматив. Мы привыкли к тому, что урожайность, заработок или доход на душу, число жилых комнат в здании могут различаться в несколько и даже десятки раз, но различие роста людей хотя бы в полтора раза уже воспринимается как очень сильное.

Различная сила, интенсивность вариации обусловлены объективными причинами. Например, цена продажи доллара США в коммерческих банках Санкт-Петербурга на 24 января 1997 г. варьировала от 5675 до 5640 руб. при средней цене 5664 руб. Относительный размах вариации ρ = 35:5664 = 0,6%. Такая малая вариация вызвана тем, что при значительном различии курса доллара немедленно произошел бы отлив покупателей из «дорогого» банка в более «дешевые». Напротив, цена килограмма картофеля или говядины в разных регионах России варьирует очень сильно - на десятки процентов и более. Это объясняется разными затратами на доставку товара из региона-производителя в регион-потребитель, т.е. пословицей «телушка за морем - полушка, да рубль перевоз».

5.9. Моменты распределения и показатели его формы

Центральные моменты распределения

Для дальнейшего изучения характера вариации используются средние значения разных степеней отклонений отдельных величин признака от его средней арифметической величины. Эти показатели получили название центральных моментов распределения порядка, соответствующего степени, в которую возводятся отклонения (табл. 5.7), или просто моментов (нецентральные моменты используются редко и здесь не будут рассматриваться). Величина третьего момента ц-, зависит, как и его знак, от преобладания положительных кубов отклонений над отрицательными кубами либо наоборот. При нормаль- ном и любом другом строго симметричном распределении сумма положительных кубов строго равна сумме отрицательных кубов.

Показатели асимметрии

На основе момента третьего порядка можно построить показатель, характеризующий степень асимметричности распределения:

As называют коэффициентом асимметрии. Он может быть рассчитан как по сгруппированным, так и по несгруппированным данным. По данным табл. 5.6 показатель асимметрии составил:

т.е. асимметрия незначительна. Английский статистик К. Пирсон на основе разности между средней величиной и модой предложил другой показатель асимметрии

Таблица 5.7

Центральные моменты

По данным табл. 5.6 показатель Пирсона составил:

Показатель Пирсона зависит от степени асимметричности в средней части ряда распределения, а показатель асимметрии, основанный на моменте третьего порядка, - от крайних значений признака. Таким образом, в нашем примере в средней части распределения асимметрия более значительна, что видно и по графику (рис. 5.1). Распределения с сильной правосторонней и левосторонней (положительной и отрицательной) асимметрией показаны на рис. 5.3.

Характеристика эксцесса распределения

С помощью момента четвертого порядка характеризуется еще более сложное свойство рядов распределения, чем асимметрия, называемое эксцессом.


Рис. 5.3. Асимметрия, распределения

Показатель эксцесса рассчитывается по формуле

(5.30)

Часто эксцесс интерпретируется как «крутизна» распределения, но это неточно и неполно. График распределения может выглядеть сколь угодно крутым в зависимости от силы вариации признака: чем слабее вариация, тем круче кривая распределения при данном масштабе. Не говоря уже о том, что, изменяя масштабы по оси абсцисс и по оси ординат, любое распределение можно искусствен но сделать «крутым» и «пологим». Чтобы показать, в чем состоит эксцесс распределения, и правильно его интерпретировать, нужно сравнить ряды с одинаковой силой вариации (одной и той же величиной σ) и разными показателями эксцесса. Чтобы не смешать эксцесс с асимметрией, все сравниваемые ряды должны быть симметричными. Такое сравнение изображено на рис. 5.4.

Рис.5.4. Эксцесс распределений

Для вариационного ряда с нормальным распределением значе- i ний признака показатель эксцесса, рассчитанный по формуле (5.30), j равен трем.

Однако такой показатель не следует называть термином «эксцесс», что в переводе означает «излишество». Термин «эксцесс» следует применять не к самому отношению по формуле (5.30), а к сравнению такого отношения для изучаемого распределения с величиной данного отношения нормального распределения, т.е. с величиной 3. Отсюда окончательные формулы показателя эксцесса, т.е. излишества в сравнении с нормальным распределением при той же силе вариации, имеют вид:

для ранжированного ряда

для интервального и дискретного вариационного ряда

Наличие положительного эксцесса, как и ранее отмеченного значительного различия между малым квартальным расстоянием и большим средним квадратическим отклонением, означает, что в изучаемой массе явлений существует слабо варьирующее по данному признаку «ядро», окруженное рассеянным «гало». При существенном отрицательном эксцессе такого «ядра» нет совсем.

По значениям показателей асимметрии и эксцесса распределения можно судить о близости распределения к нормальному, что бывает существенно важно для оценки результатов корреляционного и регрессионного анализа, возможностей вероятностной оценки прогнозов (см. главы 7,8,9). Распределение можно считать нормальным, а точнее говоря - не отвергать гипотезу о сходстве фактического распределения с нормальным, если показатели асимметрии и эксцесса не превышают своих двукратных средних квадратических отклонений Стц. Эти средние квадратические отклонения вычисляются по формулам:

5.10. Предельно возможные значения показателей вариации и их применение

Применяя любой вид статистических показателей, полезно знать, каковы предельно возможные значения данного показателя для изучаемой системы и каково отношение фактически наблюдаемых значений к предельно возможным. Особенно актуальна эта проблема при изучении вариации объемных показателей, таких, как объем производства определенного вида продукции, наличие определенных ресурсов, распределение капиталовложений, доходов, прибыли. Рассмотрим теоретически и практически данный вопрос на примере распределения производства овощей между сельхозпредприятиями в районе.

Очевидно, что минимально возможное значение показателей вариации достигается при строго равномерном распределении объемного признака между всеми единицами совокупности, т. е. при одинаковом объеме производства в каждом из сельхозпредприятий. В таком предельном (конечно, весьма маловероятном на практике) распределении вариация отсутствует и все показатели, вариации равны нулю.

Максимально возможное значение показателей вариации достигается при таком распределении объемного признака в совокупности, при котором весь его объем сосредоточен в одной единице совокупности; например, весь объем производства овощей - в одном сельхозпредприятий района при отсутствии их производства в остальных хозяйствах. Вероятность такого предельно возможного сосредоточения объема признака в одной единице совокупности не столь уж мала; во всяком случае она гораздо больше вероятности строго равномерного распределения.

Рассмотрим показатели вариации при указанном предельном случае ее максимальности. Обозначим число единиц совокупности п, среднюю величину признака х ̅ , тогда общий объем признака в совокупности выразится как х ̅ п. Весь этот объем сосредоточен у одной единицы совокупности, так что х max = х ̅ п. х min = 0, откуда следует, что максимальное значение амплитуды (размаха вариации) равно:

Для вычисления максимальных значений средних отклонений по модулю и квадратического построим таблицу отклонений (табл. 5.8).

Таблица5.8

Модули и квадраты отклонений от средней при максимально возможной вариации

Номера единиц совокупности

Значения признака

Отклонения от средней

x i - x ̅

Модули отклонений

|x i - x ̅|

Квадраты отклонений

i - х ̅ ) 2

х ̅ п

х ̅ (п - 1)

-x ̅

-x ̅

-x ̅

х ̅ (п - 1)

х ̅

х ̅

х ̅

х ̅ 2 (п - 1) 2

х ̅ 2

х ̅ 2

х ̅ 2

х ̅ п

2х ̅ (п - 1)

х ̅ 2 [(п - 1) 2 +(n-1 )]

Исходя из выражений, стоящих в итоговой строке табл. 5.8, получаем следующие максимально возможные значения показателей вариации.

Средний модуль отклонений, или среднее линейное отклонение:

Среднее квадратическое отклонение:

Относительное модульное (линейное) отклонение:

Коэффициент вариации:

Что касается квартального расстояния, то система с максимально возможной вариацией обладает вырожденной структурой распределения признака, в которой не существуют («не работают») характеристики структуры: медиана, квартили и им подобные.

Исходя из полученных формул максимально возможных значений основных показателей вариации, прежде всего следует вывод о зависимости этих значений от объема совокупности п. Эта зависимость обобщена в табл. 5.9.

Наиболее узкие пределы изменения и слабую зависимость от численности совокупности обнаруживают средний модуль и относительное линейное отклонение. Напротив, среднее квадратическое отклонение и коэффициент вариации сильно зависят от численности единиц совокупности. Эту зависимость следует учитывать при сравнении силы интенсивности вариации в совокупностях разной численности. Если в совокупности шести предприятий коэффициент вариации объема продукции составил 0,58, а в совокупности из 20 предприятий он составил 0,72, то справедливо ли делать вывод о большей неравномерности объема продукции во второй совокупности? Ведь в первой, меньшей, он составил 0,58: 2,24 = 25,9% максимально возможного, т.е. предельного, уровня концентрации производства в одном предприятии из шести, а во второй, большей совокупности, наблюдаемый коэффициент вариации составил только 0,72: 4,36 = 16,5% максимально возможного.

Таблица 5.9

Предельные значения показателей вариации объемного признака при разных численностях совокупности

Численность совокупностей

Максимальные значения показателей

х ̅

х ̅

1,5 х ̅

1,73 х ̅

1,67 х ̅

2,24 х ̅

1,80 х ̅

3 х ̅

1,90 х ̅

4,36 х ̅

1,96 х ̅

7 х ̅

1,98 х ̅

9,95 х ̅

2 х ̅

Имеет практическое значение и такой показатель, как отношение фактического среднего модуляотклонений к предельно возможному. Так, для совокупности шести предприятий это соотношение составило: 0,47: 1,67 = 0,281, или 28,1%. Интерпретация полученного показателя такова: для перехода от наблюдаемого распределения объема продукции между предприятиями, к равномерному распределению потребовалось бы перераспределить

, или 23,4% общего объема продукции в совокупности. Если степень фактической концентрации производства (фактическая величина σ или v ) составляет некоторую долю предельного значения при монополизации производства на одном предприятии, то отношение фактического показателя к предельному может характеризовать степень концентрации (или монополизации) производства.

Отношения фактических значений показателей вариации или изменения структуры к предельно возможным используются также при анализе структурных сдвигов (см. главу 11).

1. Джини К. Средние величины. - М.: Статистика, 1970.

2. Кривенкова Л. Н., Юзбашев М. М. Область существования показателей вариации и ее применение // Вестник статистики. - 1991. - №6. - С. 66-70.

3. Пасхавер И. С. Средние величины в статистике. - М.: Статистика. 1979.

4. Шураков В. В., Дайитбегов Д. М. и др. Автоматизированное рабочее место статистической обработки данных (Глава 4. Предварительная статистическая обработка данных). - М.: Финансы и статистика, 1990.

картофель производство ранжированный статистический

На основе показателей таблицы 2 составляем ранжированные ряды по производству картофеля на 100 га пашни; по урожайности картофеля; по себестоимости. Зависимость между этими показателями изображаем графически.

Первым этапом статистического изучения вариации являются построение вариационного ряда - упорядоченного распределения единиц совокупности по возрастающим (чаще) или убывающим (реже) значениям признака.

Существуют три формы вариационного ряда: ранжированный ряд, дискретный ряд, интервальный ряд. Вариационный ряд часто называют рядом распределения.

Ранжированный ряд - это перечень отдельных единиц совокупности в порядке возрастания (убывания) изучаемого признака

Ранжирование - это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения. Вариационный размах показывает, насколько велико различие между единицами совокупности.

Ранг - это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Если значение признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным средней арифметической от соответствующих номеров мест, которые определяют. Данные ранги называются связными.

Графики в статистике - это способ наглядного изображения статистических показателей в виде геометрических фигур и знаков, рисунков или схематических карт. Наглядное изображение облегчает восприятие информации, позволяет охватить совокупность показателей во взаимосвязи, выявить тенденцию развития и типичные соотношения показателей.

Для изображения показателей динамики целесообразно использовать линейные графики или столбиковые диаграммы. График должен быть наглядным, понятны, легко читаемым и по возможности художественно оформленным, что привлечет к нему внимание.

При построении точечных диаграмм в качестве графических образцов применяется совокупность точек; при построении линейных - линии. Построение графика всегда творческий процесс. Здесь необходим некоторый поиск. Лишь после составления и сравнения нескольких черновых вариантов можно определить правильную композицию графика, установить масштабы и расположение знаков на поле графика.

Из ранжированного ряда по производству картофеля на 100 га пашни, можно сделать следующий вывод, что самое низкое производство наблюдается в Балаганском районе, а наибольшей производительностью картофеля со 100 га пашни отличается Ангарский район.

Наименьшая урожайность была в Качугском районе-10 ц/га, а наибольшая в Усольском - 195,5 ц/га.

В Чунском районе при высоком производстве картофеля на 100 га пашни, соответствовала наименьшая себестоимость 1 ц. Максимальная себестоимость наблюдается в Нижне-Илимском районе. Размах вариации себестоимости центнера картофеля очень велик и равен 1161,01 р.

Другие публикации

Анализ хозяйственной деятельности предприятия
Переход к рыночной экономике требует от предприятия повышения эффективности производства, конкурентоспособности продукции и услуг на основе внедрения эффективных форм хозяйствования и управления производством, достижений научно-технического прогресса, активизации п...

Анализ финансово-хозяйственной деятельности ОАО ТрансКонтейнер
Финансовый анализ представляет собой процесс, основанный на изучении данных о финансовом состоянии предприятия и результатах его деятельности в прошлом с целью оценки будущих условий и результатов деятельности. Таким образом, главной задачей финансового анализа явл...

При работе с данными часто возникает потребность выяснить, какое место занимает в совокупном перечне по величине тот или иной показатель. В статистике это называется ранжированием. В Excel имеются инструменты, которые позволяют пользователям быстро и легко произвести данную процедуру. Давайте выясним, как ими пользоваться.

Функции ранжирования

Для выполнения ранжирования в Экселе предусмотрены специальные функции. В старых версиях приложения был один оператор, предназначенный для решения этой задачи – РАНГ. В целях совместимости он оставлен в отдельной категории формул и в современных версиях программы, но в них все-таки желательно работать с более новыми аналогами, если есть такая возможность. К ним относятся статистические операторы РАНГ.РВ и РАНГ.СР. О различиях и алгоритме работы с ними мы поговорим далее.

Способ 1: функция РАНГ.РВ

Оператор РАНГ.РВ производит обработку данных и выводит в указанную ячейку порядковый номер заданного аргумента из совокупного списка. Если несколько значений имеют одинаковый уровень, то оператор выводит высший из перечня значений. Если, например, два значения будут иметь одинаковую величину, то им обоим будет присвоен второй номер, а уже следующее по величине значение будет иметь четвертый. Кстати, полностью аналогично поступает и оператор РАНГ в более старых версиях Эксель, так что данные функции можно считать идентичными.

Синтаксис этого оператора записывается следующим образом:

Аргументы «число» и «ссылка» являются обязательными, а «порядок» - необязательным. В качестве аргумента «число» нужно ввести ссылку на ту ячейку, где содержится значение, порядковый номер которого нужно узнать. Аргумент «ссылка» содержит адрес всего диапазона, который ранжируется. Аргумент «порядок» может иметь два значения – «0» и «1». В первом случае отсчет порядка идет по убывающей, а во втором – по возрастающей. Если данный аргумент не указан, то он автоматически считается программой равным нулю.

Данную формулу можно записывать вручную, в ту ячейку, где вы хотите, чтобы выводился результат обработки, но для многих пользователей удобнее задавать вводные через окно Мастера функций.


Урок: Мастер функций в Excel

Способ 2: функция РАНГ.СР

Второй функцией, которая производит операцию ранжирования в Экселе, является РАНГ.СР. В отличие от функций РАНГ и РАНГ.РВ, при совпадении значений нескольких элементов данный оператор выдает средний уровень. То есть, если два значения имеют равную величину и следуют после значения под номером 1, то им обоим будет присвоен номер 2,5.

Синтаксис РАНГ.СР очень похож на схему предыдущего оператора. Выглядит он так:

Формулу можно вводить вручную или через Мастер функций. На последнем варианте мы подробнее и остановимся.

  1. Производим выделение ячейки на листе для вывода результата. Таким же образом, как и в предыдущий раз, переходим в Мастер функций через кнопку «Вставить функцию».
  2. После открытия окна Мастера функций выделяем в перечне категории «Статистические» наименование РАНГ.СР и жмем на кнопку «OK».
  3. Активируется окно аргументов. Аргументы у данного оператора точно такие же, как и у функции РАНГ.РВ:
    • Число (адрес ячейки содержащей элемент, уровень которого следует определить);
    • Ссылка (координаты диапазона, ранжирование внутри которого выполняется);
    • Порядок (необязательный аргумент).

    Внесение данных в поля происходит точно таким же способом, как и у предыдущего оператора. После того, когда все настройки выполнены, жмем на кнопку «OK».

  4. Как видим, после выполненных действий результат расчета был выведен в ячейку, отмеченную в первом пункте данной инструкции. Сам итог представляет собой место, которое занимает конкретное значение среди других величин диапазона. В отличие от результата РАНГ.РВ, итог оператора РАНГ.СР может иметь дробное значение.
  5. Как и в случае с предыдущей формулой, с помощью изменения ссылок с относительных на абсолютные и маркера выделения, путем автозаполнения можно проранжировать весь диапазон данных. Алгоритм действий точно такой же.

Урок: Другие статистические функции в Microsoft Excel

Урок: Как сделать автозаполнение в Эксель

Как видим, в Экселе существует две функции для определения ранжирования конкретного значения в диапазоне данных: РАНГ.РВ и РАНГ.СР. Для более старых версий программы используется оператор РАНГ, который, по сути, является полным аналогом функции РАНГ.РВ. Главное отличие формул РАНГ.РВ и РАНГ.СР состоит в том, что первая из них указывает наивысший уровень при совпадении значений, а вторая выводит средний показатель в виде десятичной дроби. Это единственное различие между этими операторами, но его нужно учитывать при выборе того, какой именно функцией пользователю лучше воспользоваться.

Мы рады, что смогли помочь Вам в решении проблемы.

Задайте свой вопрос в комментариях, подробно расписав суть проблемы. Наши специалисты постараются ответить максимально быстро.

Помогла ли вам эта статья?

Научимся ранжировать числовые данные в Excel с помощью стандартной сортировки, а также функции РАНГ и ее частных случаях (РАНГ.РВ и РАНГ.СР), которые помогут в автоматизации сортировки.

Приветствую всех, дорогие читатели блога TutorExcel.Ru.

Задача ранжирования числовых данных постоянно возникает в работе с целью поиска наибольших или наименьших значений в списке.
В Excel с этой задачей можно справиться 2 способами: стандартным инструментом сортировки и с помощью функций .

Для примера возьмем простую таблицу со списком числовых значений, в которой в дальнейшем и будем ранжировать данные:

Сортировка данных

Начнем с самого простого и доступного варианта - сортировки.

Мы уже частично разбирали как можно структурировать данные с помощью фильтра и сортировки.
Вкратце, для сортировки необходимо выделить диапазон с данными и на панели вкладок выбрать Главная -> Редактирование -> Сортировка и фильтр , а далее указать по какому критерию нужно произвести сортировку.

В данном случае выберем Сортировка по убыванию , где значения будут расположены от большего к меньшему:


Минусом данного способа является изменение структуры исходных данных, так как в процессе сортирования данных строки и столбцы могут меняться местами, что в некоторых случаях неудобно или невозможно сделать.
Также к важным недостаткам этого варианта можно отнести отсутствие возможности автоматизировать сортировку. Поэтому каждый раз при изменении данных сортировку придется делать еще раз.

В качестве решения данной проблемы рассмотрим другой способ ранжирования, который впрочем можно рассматривать и отдельно от решения этой задачи.

Ранжирование данных

При отсутствии возможности изменения структуры документа мы можем создать дополнительный ряд данных, где будут содержаться порядковые номера исходных данных.
Получить эти порядковые номера нам поможет функция РАНГ (а также РАНГ.РВ и РАНГ.СР ).

Функция РАНГ в Excel

Синтаксис и описание функции:

  • Число (обязательный аргумент) - число для которого вычисляется ранг;
  • Ссылка (обязательный аргумент) - массив или ссылка на массив чисел;
  • Порядок (необязательный аргумент) - способ упорядочения. Если аргумент равен 0 или не указан, то значение 1 присваивается максимальному элементу в списке (условно говоря, сортируем по убыванию), в ином случае значение 1 присваивается минимальному элементу (сортируем по возрастанию).

Эта функция доступна во всех версиях Excel, однако начиная с Excel 2010 на ее замену добавлены РАНГ.РВ и РАНГ.СР , а РАНГ оставлена для совместимости с Excel 2007, давайте подробнее остановимся на их работе.

Функции РАНГ.РВ и РАНГ.СР в Excel

Синтаксис и описание функций:

РАНГ.РВ(число; ссылка;)
Возвращает ранг числа в списке чисел: его порядковый номер относительно других чисел в списке; если несколько значений имеют одинаковый ранг, возвращается высший ранг из этого набора значений.

Аргументы у всех трех функций одинаковые, т.е. кардинально они почти не отличаются, есть небольшие различие в деталях.
На примере исходной таблицы посмотрим как работает с данными каждая из функций:


Как мы видим отличие заключаются лишь в типе ранжирования совпадающих элементов данных.

В случае с РАНГ.РВ равным элементам присваивается высший ранг.
В нашем примере категориям Ноутбуки и Мультиварки соответствует одинаковое значение элемента - 710, который является 3 по порядку убывания, соответственно обоим значениям присваивается высший ранг - 3.
Для РАНГ.СР для этих же значений устанавливается их средний ранг, т.е. среднее между 3 и 4 порядковыми номерами - 3,5.

На этом различия между ними заканчиваются, поэтому в зависимости от ваших задач можно использовать ту или иную функцию.
Если нужно отсортировать значения по возрастанию, то в качестве аргумента Порядок нужно указать значение 1:

Автоматическая сортировка

Немного усложним задачу и представим, что нам в дальнейшем нужно составить отсортированную таблицу, которая бы автоматически обновлялась при изменении данных в исходной таблице.

Например, это можно сделать с помощью функции ВПР, или комбинации ИНДЕКС и ПОИСКПОЗ, однако в случае наличия одинаковых значений в списке мы не сможем корректно подтянуть данные и получим ошибку:


В этом случае можно воспользоваться простым приемом в виде небольшой хитрости.
Добавим к каждому значению исходной таблицы не совпадающие случайные числа близкие к нулю, к примеру, я для этих целей использую функции СТРОКА или СТОЛБЕЦ, поделенные на заведомо большую величину.

Этот шаг позволит нам получить различные числа в исходных данных, избежать совпадения рангов и ошибки при подтягивании данных:

Теперь для всех элементов таблицы (даже изначально совпадающих) определен свой индивидуальный ранг отличный от остальных, поэтому ошибок при автоматическом ранжировании данных удастся избежать.

Скачать файл с примером .

Спасибо за внимание!
Если у вас остались вопросы - пишите в комментариях.

Удачи вам и до скорых встреч на страницах блога TutorExcel.Ru!

Для ранжирования данных в Excel применяются статистические функции РАНГ, РАНГ.РВ, РАНГ.СР. Все они возвращают номер числа в ранжированном списке числовых значений. Рассмотрим подробнее синтаксис, примеры.

Пример функции РАНГ в Excel

Функция используется при ранжировании в перечне чисел. То есть позволяет узнать величину числа относительно других числовых значений. Если отсортировать список по возрастанию, то функция вернет позицию числа. Например, в массиве чисел {30;2;26} число 2 будет иметь ранг 1; 26 –2; 30 –3 (как наибольшее значение в списке).

Синтаксис функции:

  1. Число. Для, которого необходимо определить номер в ранжировании.
  2. Ссылка. На массив чисел или диапазон ячеек с числовыми значениями. Если задать в качестве аргумента просто числа, то функция вернет ошибку. Нечисловым значениям номер не присваивается.
  3. Порядок. Способ упорядочения чисел в списке. Варианты: аргумент равен «0» или опущен – значение 1 присваивается максимальному числу в списке (как будто список отсортирован в порядке убывания); аргумент равен любому неравному нулю числу – номер ранжирования 1 присваивается минимальному числу в списке (как будто список отсортирован в порядке возрастания).

Определим ранжирование чисел в списке без повторов:

Аргумент, определяющий способ упорядочения чисел, равен «0». Следовательно, в данной функции номера присваивались значениям от большего к меньшему. Максимальному числу 87 присвоен номер 1.

В третьем столбце приведена формула с рангом по возрастанию.

Определим номера значений в списке, где присутствуют повторяющиеся значения.

Желтым цветом выделены повторяющиеся числа. Для них определяется один и тот же номер. Например, числу 7 во втором столбце присвоен номер 9 (и во второй строке, и в девятой); в третьем столбце – 3. Но ни одно из чисел во втором столбце не будет иметь 10, а в третьем – 4.

Чтобы ранги не повторялись (иногда это мешает пользователю решить поставленную задачу), используется следующая формула:

Для работы функции можно установить пределы. Например, необходимо ранжировать только значения от 0 до 30. Чтобы решить задачу, применим функцию ЕСЛИ (=ЕСЛИ(A2

Серым цветом выделены значения, которые соответствуют заданному условию. Для чисел, которые больше 30, выводится пустая строка.

Пример функции РАНГ.РВ в Excel

В версиях Excel, начиная с 2010 года, появилась функция РАНГ.РВ. Это абсолютный аналог предыдущей функции. Синтаксис такой же. Буквы «РВ» в названии указывают на то, что при обнаружении формулой одинаковых значений функция вернет высший номер ранжирования (то есть первого обнаруженного элемента в перечне равных).

Как видно из примера, данная функция обрабатывает повторяющиеся числа в списке точно так же, как и в обычной формуле. Если необходимо избежать повторений рангов, используем другую формулу (см. выше).

Пример функции РАНГ.СР в Excel

Возвращает номера числового значения в списке (порядковый номер относительно других значений). То есть выполняет ту же задачу. Только при обнаружении идентичных значений возвращает средний показатель.

Вот результат работы функции:

Формула в столбце «по убыванию»: =РАНГ.СР(A2;$A$2:$A$9;0). Так, функция значению 87 присвоила средний номер 1,5.

Допустим, в списке чисел три повторяющихся значения (выделены оранжевым цветом).

Функция присвоила каждому из них ранг 5, что является средним для 4, 5 и 6.

Сравним работу двух функций:

Напомним, что эти две функции работают только в Excel 2010 и выше. В более ранних версиях для этих целей можно задействовать формулу массива.

Скачать примеры функции ранжирования РАНГ в Excel.

Таким образом, все выше описанные примеры позволяют автоматизировать работу по ранжированию данных и составлению рейтинга значений без применения сортировки.

Важнейшим этапом исследования социально-экономических явлений и процессов является систематизация первичных данных и получение на этой основе сводной характеристики всего объекта при помощи обобщающих показателей, что достигается путем сводки и группировки первичного статистического материала.

Статистическая сводка - это комплекс последовательных операций по обобщению конкретных единичных фактов, образующих совокупность, для выявления типичных черт и закономерностей, присущих изучаемому явлению в целом. Проведение статистической сводки включает следующие этапы :

  • выбор группировочного признака;
  • определение порядка формирования групп;
  • разработка системы статистических показателей для характеристики групп и объекта в целом;
  • разработка макетов статистических таблиц для представления результатов сводки.

Статистической группировкой называется расчленение единиц изучаемой совокупности на однородные группы по определенным существенным для них признакам. Группировки являются важнейшим статистическим методом обобщения статистических данных, основой для правильного исчисления статистических показателей.

Различают следующие виды группировок: типологические, структурные, аналитические. Все эти группировки объединяет то, что единицы объекта разделены на группы по какому-либо признаку.

Группировочным признаком называется признак, по которому проводится разбиение единиц совокупности на отдельные группы. От правильного выбора группировочного признака зависят выводы статистического исследования. В качестве основания группировки необходимо использовать существенные, теоретически обоснованные признаки (количественные или качественные).

Количественные признаки группировки имеют числовое выражение (объем торгов, возраст человека, доход семьи и т. д.), а качественные признаки группировки отражают состояние единицы совокупности (пол, семейное положение, отраслевая принадлежность предприятия, его форма собственности и т. д.).

После того, как определено основание группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность. Число групп зависит от задач исследования и вида показателя, положенного в основание группировки, объема совокупности, степени вариации признака.

Например, группировка предприятий по формам собственности учитывает муниципальную, федеральную и собственность субъектов федерации. Если группировка производится по количественному признаку, то тогда необходимо обратить особое внимание на число единиц исследуемого объекта и степень колеблемости группировочного признака.

Когда определено число групп, то следует определить интервалы группировки. Интервал - это значения варьирующего признака, лежащие в определенных границах. Каждый интервал имеет свою величину, верхнюю и нижнюю границы или хотя бы одну из них.

Нижней границей интервала называется наименьшее значение признака в интервале, а верхней границей - наибольшее значение признака в интервале. Величина интервала представляет собой разность между верхней и нижней границами.

Интервалы группировки в зависимости от их величины бывают: равные и неравные. Если вариация признака проявляется в сравнительно узких границах и распределение носит равномерный характер, то строят группировку с равными интервалами. Величина равного интервала определяется по следующей формуле :

где Хmax, Хmin - максимальное и минимальное значения признака в совокупности; n - число групп.

Простейшая группировка, в которой каждая выделенная группа характеризуется одним показателем представляет собой ряд распределения.

Статистический ряд распределения - это упорядоченное распределение единиц совокупности на группы по определенному признаку. В зависимости от признака, положенного в основу образования ряда распределения, различают атрибутивные и вариационные ряды распределения.

Атрибутивными называют ряды распределения, построенные по качественным признакам, то есть признакам, не имеющим числового выражения (распределение по видам труда, по полу, по профессии и т.д.). Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам. Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры.

Вариационными рядами называют ряды распределения, построенные по количественному признаку. Любой вариационный ряд состоит из двух элементов: вариантов и частот. Вариантами называются отдельные значения признака, которые он принимает в вариационном ряду, то есть конкретное значение варьирующего признака.

Частотами называются численности отдельных вариант или каждой группы вариационного ряда, то есть это числа, которые показывают, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот определяет численность всей совокупности, ее объем. Частостями называются частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частостей равна 1 или 100%.

В зависимости от характера вариации признака различают три формы вариационного ряда: ранжированный ряд, дискретный ряд и интервальный ряд.

Ранжированный вариационный ряд - это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака. Ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются.

Дискретный вариационный ряд характеризует распределение единиц совокупности по дискретному признаку, принимающему только целые значения. Например, тарифный разряд, количество детей в семье, число работников на предприятии и др.

Если признак имеет непрерывное изменение, которые в определенных границах могут принимать любые значения («от - до»), то для этого признака нужно строить интервальный вариационный ряд . Например, размер дохода, стаж работы, стоимость основных фондов предприятия и др.

Примеры решения задач по теме «Статистическая сводка и группировка»

Задача 1 . Имеется информация о количестве книг, полученных студентами по абонементу за прошедший учебный год.

Построить ранжированный и дискретный вариационные ряды распределения, обозначив элементы ряда.

Решение

Данная совокупность представляет собой множество вариантов количества получаемых студентами книг. Подсчитаем число таких вариантов и упорядочим в виде вариационного ранжированного и вариационного дискретного рядов распределения.

Задача 2 . Имеются данные о стоимости основных фондов у 50 предприятий, тыс. руб.

Построить ряд распределения, выделив 5 групп предприятий (с равными интервалами).

Решение

Для решения выберем наибольшее и наименьшее значения стоимости основных фондов предприятий. Это 30,0 и 10,2 тыс. руб.

Найдем размер интервала: h = (30,0-10,2):5= 3,96 тыс. руб.

Тогда в первую группу будут входить предприятия, размер основных фондов которых составляет от 10,2 тыс. руб. до 10,2+3,96=14,16 тыс. руб. Таких предприятий будет 9. Во вторую группу войдут предприятия, размер основных фондов которых составит от 14,16 тыс. руб. до 14,16+3,96=18,12 тыс. руб. Таких предприятий будет 16. Аналогично найдем число предприятий, входящих в третью, четвертую и пятую группы.

Полученный ряд распределения поместим в таблицу.

Задача 3 . По ряду предприятий легкой промышленности получены следующие данные:

Произведите группировку предприятий по числу рабочих, образуя 6 групп с равными интервалами. Подсчитайте по каждой группе:

1. число предприятий
2. число рабочих
3. объем произведенной продукции за год
4. среднюю фактическую выработку одного рабочего
5. объем основных средств
6. средний размер основных средств одного предприятия
7. среднюю величину произведенной продукции одним предприятием

Результаты расчета оформите в таблицы. Сделайте выводы.

Решение

Для решения выберем наибольшее и наименьшее значения среднесписочного числа рабочих на предприятии. Это 43 и 256.

Найдем размер интервала: h = (256-43):6 = 35,5

Тогда в первую группу будут входить предприятия, среднесписочное число рабочих на которых составляет от 43 до 43+35,5=78,5 человек. Таких предприятий будет 5. Во вторую группу войдут предприятия, среднесписочное число рабочих на которых составит от 78,5 до 78,5+35,5=114 человек. Таких предприятий будет 12. Аналогично найдем число предприятий, входящих в третью, четвертую, пятую и шестую группы.

Полученный ряд распределения поместим в таблицу и вычислим необходимые показатели по каждой группе:

Вывод : Как видно из таблицы, вторая группа предприятий является самой многочисленной. В нее входят 12 предприятий. Самыми малочисленными являются пятая и шестая группы (по два предприятия). Это самые крупные предприятия (по числу рабочих).

Поскольку вторая группа самая многочисленная, объем произведенной продукции за год предприятиями этой группы и объем основных средств значительно выше других. Вместе с тем средняя фактическая выработка одного рабочего на предприятиях этой группы наибольшей не является. Здесь лидируют предприятия четвертой группы. На эту группу приходится и довольно большой объем основных средств.

В заключении отметим, что средний размер основных средств и средняя величина произведенной продукции одного предприятия прямо пропорциональны размерам предприятия (по числу рабочих).