Медиана (Me) – значение признака, приходящееся на середину ранжированного ряда, т.е. делящее ряд распределения на две равные части.

а) для ряда одиночных значений:

Если нечетное кол-во вариант, то серединное значение в ранжированном ряду

Если четное , то сред.арифмет. из 2х смежных серединных значений в ранжиров. ряду

б) В дискретном ряду распределения определяется номер медианы по формуле:

Номер медианы показывает то значение показателя, которое и является медианой.

в) В интервальном ряду распределения медиана рассчитывается по следующей формуле:

x - нижняя граница медианного интервала;

i - величина интервала;

f - численность медианного интервала;

S - сумма накопленных частот интервалов, предшествующих медианному.

31. Мода и ее практическое значение

Мода (Mo) – величина признака, наиболее часто встречающаяся в совокупности, т.е. имеющая наибольшую численность в ряду распределения.

а) В дискретном ряду распределения мода определяется визуально.

б) В интервальном ряду распределения визуально можно определить только интервал, в котором заключена мода, который называется модальным интервалом(тот, который имеет наибольшую частоту).

Мода будет равна:

x - нижняя граница модального интервала;

i - величина интервала;

f - численность модального интервала;

Если все значения вариационного ряда имеют одинаковую частоту, то говорят, что этот вариационный ряд не имеет моды. Если две не соседних варианты имеют одинаковую доминирующую частоту, то такой вариационный ряд называют бимодальным ; если таких вариант больше двух, то ряд – полимодальный .

32. Показатели вариации и способы их расчета

Вариации – колеблемость, многообразие, изменяемость величины признака у единиц совокупности.

Показатели вариации делятся на абсолютные и относительные.

К абсолютным показателям относятся размах вариации, среднее линейное отклонение, дисперсия, среднее квадратическое отклонение. К относительным – коэффициенты осцилляции, коэффициенты вариации и относительное линейное отклонение.

Размах вариации – простейший показатель, разность между максимальным и минимальным значениями признака.

Недостатком является то, что он оценивает только границы варьирования признака и не отражает его колеблемость внутри этих границ.

Среднее линейное отклонение отражает все колебания варьирующего признака и представляет собой среднюю арифметическую из абсолютных значений отклонений вариант от средней величины, т.к. сумма отклонений значений признака от средней равно 0, то все отклонения берутся по модулю.

Простая
Взвешенная

Дисперсия – средний квадрат отклонений значений признака от их средней величины.

Простая:
Взвешенная:

Среднее квадратическое отклонение . Оно определяется как квадратный корень из дисперсии и имеет ту же размерность, что и изучаемый признак.

Простая:
Взвешенная:
.

Относительные показатели

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ № 4 .

Расчёт структурных характеристик вариационного ряда распределения.

Студент должен:

знать:

- область применения и методику расчёта структурных средних величин;

уметь:

- исчислять структурные средние величины;

- формулировать вывод по полученным результатам.

Методические указания

В статистике исчисляются мода и медиана, которые относятся к структурным средним, так каких величина зависит от строения статистической совокупности.

Расчёт моды

Модой называется значение признака (варианта), чаще всеговстречающееся в изучаемой совокупности. В дискретном ряду распределения модой будет варианта с наибольшей частотой.

Например : Распределение проданной женской обуви по размерам характеризуется следующим образом:

Размер обуви

Количество проданных пар

В этом ряду распределениямодой является 37 размер, т.е. Мо=37 размер .

Для интервального ряда распределения мода определяется по формуле:

где Х Mo - нижняя граница модального интервала;

h Mo - величина модального интервала;

f Mo – частота модального интервала;

f Mo -1и f Mo +1 – частота интервала соответственно

предшествующего модальному и следующего за ним.

Например : Распределение рабочих по стажу работы характеризуется следующими данными.

Стаж работы, лет

до 2

8-10

10 и более

Число рабочих, чел.

Определить моду интервального ряда распределения.

Мода интервального ряда составляет

Мода всегда бывает несколько неопределённой, т.к. она зависит от величины групп и точного положения границ групп. Мода широко применяется в коммерческой практике при изучении покупательского спроса, при регистрации цен и т.п.

Расчёт медианы

Медианой в статистике называется варианта, расположенная в середине упорядоченного ряда данных, и которая делит статистическую совокупность на две равные части так, что у одной половины значения меньше медианы, а у другой половины – больше её. Для определения медианы необходимо построить ранжированный ряд, т.е. ряд в порядке возрастания или убывания индивидуальных значений признака.

В дискретном упорядоченном ряду с нечётным числом членов медианой будет варианта, расположенная в центре ряда.

Например : Стаж пяти рабочих составил 2, 4, 7, 9 и 10 лет. В таком ряду медиана-7 лет, т.е. Ме=7 лет

Если дискретный упорядоченный ряд состоит из чётного числа членов, то медианой будет средняя арифметическая из двух смежных вариант, стоящих в центре ряда.

Например : Стаж работы шести рабочих составил 1, 3, 4, 5, 10 и 11лет. В этом ряду имеются две варианты, стоящие в центре ряда. Это варианты 4 и 5. Средняя арифметическая из этих значений и будет медианой ряда

Чтобы определить медиану для сгруппированных данных, необходимо считать накопленные частоты.

Например: По имеющимся данным определим медиану размера обуви

Размер обуви

Количество проданных пар

Сумма накопленных частот

8+19=27

27+34=61

61+108=169

Итого

Для определения медианы надо подсчитать сумму накопленных частот ряда. Наращивание итога продолжается до получения накопленной суммычастот, превышающей половину суммы частот ряда. В нашем примере сумма частот составила 300, её половина – 150. Накопленная сумма частот получилась равной 169. Варианта, соответствующая этой сумме, т.е. 37 и есть медиана ряда.

Если же сумма накопленных частот против одной из вариант равна точно половине суммы частот ряда, то медиана определяется как средняя арифметическая этой варианты и последующей.

Например : По имеющимся данным определим медиану заработной платы рабочих

Месячная заработная плата, тыс.р уб.

Число рабочих, чел.

Сумма накопленных частот

14,0

14,2

2+6=8

16,0

8+12=20

16,8

18,0

Итого:

Медиана будет равна:

Медиана интервального вариационного ряда распределения определяется по формуле:

ГдеХ Ме – нижняя граница медианного интервала;

h Me – величина медианного интервала;

f - сумма частот ряда;

f Ме – частота медианного интервала;

Например: По имеющимся данным о распределении предприятий по численности промышленно – производственного персонала рассчитать медиану в интервальном вариационном ряду

Число предприятий

Сумма накопленных частот

100-200

200-300

1+3=4

300-400

4+7=11

400-500

11+30=41

500-600

600-700

700-800

Итого:

Определим, прежде всего, медианный интервал. В данном примере сумма накопленных частот, превышающих половину суммы всех значений ряда, соответствует интервалу 400-500.Это и есть медианный интервал, т.е. интервал, в котором находится медиана ряда. Определим её значение

Если же сумма накопленных частот против одного из интервалов равна точно половине суммы частот ряда, то медиана определяется по формуле:

где n – число единиц в совокупности.

Например: По имеющимся данным о распределении предприятий по численности промышленно – производственного персонала рассчитать медиану в интервальном вариационном ряду

Группы предприятий по численности ППП, чел.

Число предприятий

Сумма накопленных частот

100-200

200-300

1+3=4

300-400

4+6=10

400-500

10+30=40

500-600

40+20=60

600-700

700-800

Итого:

чел

Моду и медиану в интервальном ряду можно определить графически:

моду в дискретных рядах - по полигону распределения, моду в интервальных рядах - по гистограмме распределения, а медиану - по кумуляте .

Мода интервального ряда распределения определяется по гистограмме распределения определяют следующим образом. Для этого выбирается самый высокий прямоугольник, который является в данном случае модальным. Затем правую вершину модального прямоугольника соединяем с правым верхним углом предыдущего прямоугольника. А левую вершину модального прямоугольника – с левым верхним углом последующего прямоугольника. Далее из точки их пересечения опускают перпендикуляр на ось абсцисс. Абсцисса точки пересечения этих прямых и будет модой распределения.

Медиана рассчитывается по кумуляте . Для её определения из точки на шкале накопленных частот (частостей ), соответствующей 50%, проводится прямая , параллельная оси абсцисс, до пересечения с кумулятой . Затем из точки пересечения указанной прямой с кумулятой опускается перпендикуляр на ось абсцисс. Абсцисса точки пересечения является медианой.

Кроме моды и медианы в вариантных рядах могут быть определены и другие структурные характеристики – квантили. Квантили предназначены для более глубокого изучения структуры ряда распределения.

Квантиль – это значение признака, занимающее определенное место в упорядоченной по данному признаку совокупности. Различают следующие виды квантилей:

- квартили – значения признака, делящие упорядоченную совокупность на четыре равные части;

- децили – значения признака, делящие упорядоченную совокупность на десять равных частей;

- перцентели - значения признака, делящие упорядоченную совокупность на сто равных частей.

Таким образом, для характеристики положения центра ряда распределения можно использовать 3 показателя: среднее значение признака , мода, медиана . При выборе вида и формы конкретного показателя центра распределения необходимо исходить из следующих рекомендаций:

- для устойчивых социально-экономических процессов в качестве показателя центра используют среднюю арифметическую. Такие процессы характеризуются симметричными распределениями, в которых ;

- для неустойчивых процессов положение центра распределения характеризуется с помощью Mo или Me . Для асимметричных процессов предпочтительной характеристикой центра распределения является медиана, поскольку занимает положение между средней арифметической и модой.

Наряду со средними величинами в качестве статистических характеристик вариационных рядов распределения рассчитываются структурные средние – мода и медиана .
Мода (Mo) представляет собой значение изучаемого признака, повторяющееся с наибольшей частотой, т.е. мода – значение признака, встречающееся чаще всего.
Медианой (Me) называется значение признака, приходящееся на середину ранжированной (упорядоченной) совокупности, т.е. медиана – центральное значение вариационного ряда.
Главное свойство медианы заключается в том, что сумма абсолютных отклонений значений признака от медианы меньше, чем от любой другой величины ∑|x i - Me|=min.

Определение моды и медианы по несгруппированным данным

Рассмотрим определение моды и медианы по несгруппированным данным . Предположим, рабочие бригады, состоящей из 9 человек, имеют следующие тарифные разряды: 4 3 4 5 3 3 6 2 6 . Так как в данной бригаде больше всего рабочих 3-го разряда, этот тарифный разряд будет модальным. Mo = 3.
Для определения медианы необходимо провести ранжирование: 2 3 3 3 4 4 5 6 6 . Центральным в этом ряду является рабочий 4-го разряда, следовательно, данный разряд и будет медианным. Если ранжированный ряд включает четное число единиц, то медиана определяется как средняя из двух центральных значений.
Если мода отражает наиболее распространенный вариант значения признака, то медиана практически выполняет функции средней для неоднородной, не подчиняющейся нормальному закону распределения совокупности. Проиллюстрируем ее познавательное значение следующим примером.
Допустим, нам необходимо дать характеристику среднего дохода группы людей, насчитывающей 100 человек, из которых 99 имеют доходы в интервале от 100 до 200 долларов в месяц, а месячные доходы последнего составляют 50000 долларов (табл. 1).
Таблица 1 - Месячные доходы исследуемой группы людей. Если воспользоваться средней арифметической, то получим средний доход, равный примерно 600 – 700 долларов, который имеет мало общего с доходами основной части группы. Медиана же, равная в данном случае Me = 163 доллара, позволит дать объективную характеристику уровня доходов 99 % данной группы людей.
Рассмотрим определение моды и медианы по сгруппированным данным (рядам распределения).
Предположим, распределение рабочих всего предприятия в целом по тарифному разряду имеет следующий вид (табл. 2).
Таблица 2 - Распределение рабочих предприятия по тарифному разряду

Расчет моды и медианы для дискретного ряда

Расчет моды и медианы для интервального ряд

Расчет моды и медианы для вариационного ряда

Определение моды по дискретному вариационному ряду

Используется построенный ранее ряд значений признака, отсортированных по величине. Если объем выборки нечетный, берем центральное значение; если объем выборки четный, берем среднее арифметическое двух центральных значений.
Определение моды по дискретному вариационному ряду : наибольшую частоту (60 человек) имеет 5-й тарифный разряд, следовательно, он и является модальным. Mo = 5.
Для определения медианного значения признака по следующей формуле находят номер медианной единицы ряда (N Me): , где n - объем совокупности.
В нашем случае: .
Полученное дробное значение, всегда имеющее место при четном числе единиц совокупности, указывает, что точная середина находится между 95 и 96 рабочими. Необходимо определить, к какой группе относятся рабочие с этими порядковыми номерами. Это можно сделать, рассчитав накопленные частоты. Рабочих с этими номерами нет в первой группе, где всего лишь 12 человек, нет их и во второй группе (12+48=60). 95-й и 96-й рабочие находятся в третьей группе (12+48+56=116), следовательно, медианным является 4-й тарифный разряд.

Расчет моды и медианы в интервальном ряду

В отличие от дискретных вариационных рядов определение моды и медианы по интервальным рядам требует проведения определенных расчетов на основе следующих формул:
, (5.6)
где x 0 – нижняя граница модального интервала (модальным называется интервал, имеющий наибольшую частоту);
i – величина модального интервала;
f Mo – частота модального интервала;
f Mo -1 – частота интервала, предшествующего модальному;
f Mo +1 – частота интервала, следующего за модальным.
(5.7)
где x 0 – нижняя граница медианного интервала (медианным называется первый интервал, накопленная частота которого превышает половину общей суммы частот);
i – величина медианного интервала;
S Me -1 – накопленная интервала, предшествующего медианному;
f Me – частота медианного интервала.
Проиллюстрируем применение этих формул, используя данные табл. 3.
Интервал с границами 60 – 80 в данном распределении будет модальным, т.к. он имеет наибольшую частоту. Использую формулу (5.6), определим моду:

Для установления медианного интервала необходимо определять накопленную частоту каждого последующего интервала до тех пор, пока она не превысит половины суммы накопленных частот (в нашем случае 50 %) (табл. 5.11).
Установили, что медианным является интервал с границами 100 – 120 тыс. руб. Определим теперь медиану:

Таблица 3 - Распределение населения РФ по уровню среднедушевых номинальных денежных доходов в марте 1994г.
Группы по уровню среднедушевого месячного дохода, тыс. руб. Удельный вес населения, %
До 20 1,4
20 – 40 7,5
40 – 60 11,9
60 – 80 12,7
80 – 100 11,7
100 – 120 10,0
120 – 140 8,3
140 –160 6,8
160 – 180 5,5
180 – 200 4,4
200 – 220 3,5
220 – 240 2,9
240 – 260 2,3
260 – 280 1,9
280 – 300 1,5
Свыше 300 7,7
Итого 100,0

Таблица 4 - Определение медианного интервала
Таким образом, в качестве обобщенной характеристики значений определенного признака у единиц ранжированной совокупности могут быть использованы средняя арифметическая, мода и медиана.
Основной характеристикой центра распределения является средняя арифметическая, для которой характерно то, что все отклонения от нее (положительные и отрицательные) в сумме равняются нулю. Для медианы характерно, что сумма отклонений от нее по модулю является минимальной, а мода представляет собой значение признака, которое наиболее часто встречается.
Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить его асимметрию. В симметричных распределениях все три характеристики совпадают. Чем больше расхождение между модой и средней арифметической, тем более асимметричен ряд. Для умеренно асимметричных рядов разность между модой и средней арифметической примерно в три раза превышает разность между медианой и средней, т.е.:
|Mo –`x| = 3 |Me –`x|.

Определение моды и медианы графическим методом

Моду и медиану в интервальном ряду можно определить графически . Мода определяется по гистограмме распределения. Для этого выбирается самый высокий прямоугольник, который является в данном случае модальным. Затем правую вершину модального прямоугольника соединяем с правым верхним углом предыдущего прямоугольника. А левую вершину модального прямоугольника – с левым верхним углом последующего прямоугольника. Из точки их пересечения опускаем перпендикуляр на ось абсцисс. Абсцисса точки пересечения этих прямых и будет модой распределения (рис. 5.3).


Рис. 5.3. Графическое определение моды по гистограмме.


Рис. 5.4. Графическое определение медианы по кумуляте
Для определения медианы из точки на шкале накопленных частот (частостей), соответствующей 50 %, проводится прямая, параллельная оси абсцисс до пересечения с кумулятой. Затем из точки пересечения опускается перпендикуляр на ось абсцисс. Абсцисса точки пересечения является медианой.

Квартили, децили, перцентили

Аналогично с нахождением медианы в вариационных рядах распределения можно отыскать значение признака у любой по порядку единицы ранжированного ряда. Так, например, можно найти значение признака у единиц, делящих ряд на четыре равные части, на 10 или на 100 частей. Эти величины называются «квартили», «децили», «перцентили».
Квартили представляют собой значение признака, делящее ранжированную совокупность на 4 равновеликие части.
Различают квартиль нижний (Q 1), отделяющий ¼ часть совокупности с наименьшими значениями признака, и квартиль верхний (Q 3), осекающий ¼ часть с наибольшими значениями признака. Это означает, что 25 % единиц совокупности будут меньше по величине Q 1 ; 25 % единиц будут заключены между Q 1 и Q 2 ; 25 % - между Q 2 и Q 3 , а остальные 25 % превосходят Q 3 . Средним квартилем Q 2 является медиана.
Для расчета квартилей по интервальному вариационному ряду используются формулы:
, ,
где x Q 1 – нижняя граница интервала, содержащего нижний квартиль (интервал определяется по накопленной частоте, первой превышающей 25 %);
x Q 3 – нижняя граница интервала, содержащего верхний квартиль (интервал определяется по накопленной частоте, первой превышающей 75 %);
i – величина интервала;
S Q 1-1 – накопленная частота интервала, предшествующего интервалу, содержащему нижний квартиль;
S Q 3-1 – накопленная частота интервала, предшествующего интервалу, содержащему верхний квартиль;
f Q 1 – частота интервала, содержащего нижний квартиль;
f Q 3 – частота интервала, содержащего верхний квартиль.
Рассмотрим расчет нижнего и верхнего квартилей по данным табл. 5.10. Нижний квартиль находится в интервале 60 – 80, накопленная частота которого равна 33,5 %. Верхний квартиль лежит в интервале 160 – 180 с накопленной частотой 75,8 %. С учетом этого получим:
,
.
Кроме квартилей в вариационных радах распределения могут определяться децили – варианты, делящие ранжированный вариационный ряд на десять равных частей. Первый дециль (d 1) делит совокупность в соотношении 1/10 к 9/10, второй дециль (d 1) – в соотношении 2/10 к 8/10 и т.д.
Вычисляются они по формулам:
, .
Значения признака, делящие ряд на сто частей, называются перцентилями. Соотношения медианы, квартилей, децилей и перцентилей представлены на рис. 5.5.

В 1906 году великий ученый и известный специалист по евгенике Фрэнсис Гальтон посетил ежегодную выставку достижений животноводства и птицеводства в западной Англии, где совершенно случайно провел интересный эксперимент.

Как отмечает Джеймс Суровецки, автор книги «Мудрость толпы», на ярмарке Гальтона заинтересовало одно соревнование, в рамках которого люди должны были угадать вес забитого быка. Назвавший наиболее близкое к истинному число объявлялся победителем.

Гальтон был известен своим презрением к интеллектуальным способностям обычных людей. Он считал, что только настоящие эксперты смогут сделать точные утверждения о весе быка. А 787 участников соревнования не были экспертами.

Ученый собирался доказать некомпетентность толпы, вычислив среднее число из ответов участников. Каково же было его удивление, когда оказалось, что полученный им результат почти в точности соответствовал настоящему весу быка!

Среднее значение — позднее изобретение

Конечно, точность ответа поразила исследователя. Но еще более примечательным является тот факт, что Гальтон вообще догадался воспользоваться средним значением.

В сегодняшнем мире средние, и так называемые медианные показатели встречаются на каждом шагу: средняя температура в Нью-Йорке в апреле равняется 52 градусам по Фаренгейту; Стивен Карри в среднем зарабатывает 30 очков за игру; медианный семейный доход в США составляет $51 939/год.

Однако же идея о том, что множество различных результатов можно репрезентировать одним числом, довольна нова. До 17-ого века средние числа вообще не использовались.

Каким же образом появилась и развилась концепция средних и медианных значений? И как ей удалось стать главной измерительной методикой в наше время?

Преобладание средних значений над медианными имело далеко идущие последствия для на нашего понимания информации. И нередко оно приводило людей в заблуждение.

Среднее и медианное значения

Представьте, что вы рассказываете историю о четырех людях, ужинавших прошлым вечером с вами в ресторане. Одному из них вы бы дали 20 лет, другому — 30, третьему — 40, а четвертому — 50. Что вы скажете об их возрасте в своей истории?

Скорее всего, вы назовете их средний возраст.

Среднее значение часто используется для передачи информации о чем-либо, а также для описания некоего множества измерений. Технически, среднее значение — это то, что математики называют «средним арифметическим» — сумма всех измерений, разделенная на число измерений.

Хотя слово «среднее» (average) часто используется как синоним слова «медианное» (median), последним чаще обозначается середина чего-либо. Это слово происходит от латинского «medianus», что значит «середина».

Медианное значение в Древней Греции

История медианного значения берет свое начало с учения древнегреческого математика Пифагора. Для Пифагора и его школы медиана имела четкое определение и сильно отличалась от того, как мы понимаем среднее значение сегодня. Оно использовалось только в математике, а не в анализе данных.

В школе пифагорейцев медианное значение было средним числом в трехчленной последовательности чисел, находящемся в «равном» отношении с соседними членами. «Равное» отношение могло означать одинаково расстояние. Например, число 4 в ряду 2,4,6. Однако оно также могло выражать геометрическую прогрессию, например 10 в последовательности 1,10,100.

Статистик Черчилль Эйзенхарт объясняет, что в Древней Греции, медианное значение не использовалось в качестве репрезентирующего или заменяющего какой-либо набор чисел. Оно просто обозначало середину, и часто использовалось в математических доказательствах.

Эйзенхарт посвятил целых десять лет изучению среднего и медианного значений. Изначально он пытался отыскать репрезентирующую функцию медианы в ранних научных построениях. Однако вместо этого он обнаружил, что большинство ранних физиков и астрономов опирались на единичные, умело проведенные измерения, и у них не было методологии, позволявшей выбрать лучший результат среди множества наблюдений.

Современные исследователи основывают свои выводы на сборе больших объемов данных, как, например, биологи, изучающие человеческий геном. Древние ученые же могли провести несколько измерений, но выбирали лишь самое лучшее для построения своих теорий.

Как писал историк астрономии Отто Нойгебауэр, «это согласуется с осознанным стремлением античных людей минимизировать количество эмпирических данных в науке, потому что они не верили в точность непосредственных наблюдений».

Например, греческий математик и астроном Птолемей вычислил угловой диаметр Луны, используя метод наблюдения и теорию движения земли. Его результат был равен 31’20. Сегодня же мы знаем, что диаметр Луны колеблется от 29’20 до 34’6 в зависимости от расстояния от Земли. Птолемей в своих вычислениях использовал мало данных, но у него были все основания полагать, что они были точными.

Эйзенхарт пишет: «Необходимо иметь в виду, что связь между наблюдением и теорией в античности была иной, нежели сегодня. Результаты наблюдений понимались не как факты, под которые должна подстраиваться теория, но как конкретные случаи, которые могут быть полезны лишь в качестве иллюстративных примеров истинности теории»

В конце концов, ученые обратятся к репрезентативным измерениям данных, но изначально ни средние, ни медианные значения не использовались в этой роли. Со времен античности до сегодняшнего дня в качестве такого репрезентативного средства использовался другой математический концепт — полусумма крайних значений.

Полусумма крайних значений

Новые научные средства почти всегда возникают из необходимости решить определенную задачу в какой-либо дисциплине. Необходимость найти лучшее значение среди множества измерений возникло из потребности точно определить географическое положение.

Интеллектуальный гигант 11-ого века Аль-Бируни известен как один из первых людей, использовавших методологию репрезентирующих значений. Аль-Бируни писал, что когда в его распоряжении было множество измерений, и он хотел найти лучшее среди них, он использовал следующее «правило»: нужно отыскать число, соответствующее середине между двумя крайними значениями. При вычислении полусуммы крайних значений не принимаются во внимание все числа между максимальным и минимальным значениями, а находится среднее только для этих двух чисел.

Аль-Бируни применял этот метод в разных областях, в том числе для вычисления долготы города Газни, что находится на территории современного Афганистана, а также в своих исследованиях свойств металлов.

Однако в последние несколько веков полусумма крайних значений используется все реже. На самом деле, в современной науке она и вовсе не актуальна. На место полусуммы пришло медианное значение.

Переход к средним значениям

К началу 19-ого века использование медианного/среднего значения стало распространенным методом нахождения наиболее точно репрезентирующего значения из группы данных. Фридрих фон Гаусс, выдающийся математик своего времени, в 1809-ом году писал: «Считалось, что если некоторое число было определено несколькими прямыми наблюдениями, совершенными в одинаковых условиях, то среднее арифметическое значение является наиболее истинным значением. Если оно и не совсем строгое, то, по крайней мере, оно близко к действительности, и поэтому на него всегда можно положиться».

Почему произошел подобный сдвиг в методологии?

На этот вопрос довольно трудно ответить. В своем исследовании Черчилль Эйзенхарт предполагает, что метод нахождения среднего арифметического мог зародиться в области измерения магнитного отклонения, то есть в отыскании отличия между направлением стрелки компаса, указывающей на север, и реальным севером. Это измерение было крайне важным в эпоху Великих Географических Открытий.

Эйзенхарт выяснил, что до конца 16-ого века большинство измерявших магнетическое отклонение ученых использовали метод ad hoc (от лат. «к этому, для данного случая, для этой цели») при выборе наиболее точного измерения.

Но в 1580-ом году ученый Уильям Боро подошел к проблеме иначе. Он взял восемь различных измерений отклонения и, сравнив их, пришел к выводу, что наиболее точное значение было между 11 ⅓ и 11 ¼ градусами. Вероятно, он вычислил среднее арифметическое, которое находилось в этом диапазоне. Однако сам Боро открыто не называл свой подход новым методом.

До 1635-ого года вообще не было однозначных случаев использования среднего значения в качестве репрезентирующего числа. Однако именно тогда английский астроном Генри Геллибренд взял два различных результата измерения магнетического отклонения. Одно из них было сделано утром (11 градусов), а другое — днем (11 градусов и 32 минуты). Вычисляя наиболее истинное значение, он писал:

«Если мы найдем среднее арифметическое, мы с большой вероятностью можем утверждать, что результат точного измерения должен быть около 11 градусов 16 минут».

Вполне вероятно, что это был первый случай использования среднего значения как наиболее близкого к истинному!

Слово «среднее» (average) применялось в английском языке в начале 16-ого века для обозначения финансовых потерь от ущерба, которое получило судно или перевозимый груз во время плавания. В течение следующих ста лет оно обозначало именно эти потери, которые высчитывались как среднее арифметическое. Например, если корабль во время плавания был поврежден, и команде приходилось выбрасывать за борт некоторые товары, чтобы сохранить вес судна, инвесторы несли финансовые потери, эквивалентные сумме их инвестиции — эти потери вычислялись так же, как среднее арифметическое. Так постепенно значения среднего (average) и среднего арифметического сближались.

Медианное значение

В наши дни среднее значение или среднее арифметическое используются как основной способ для выбора репрезентативного значения множества измерений. Как же это произошло? Почему эта роль не была отведена медианному значению?

Френсис Гальтон был чемпионом медианного значения

Термин «медианное значение» (median) — средний член в ряде чисел, разделяющий этот ряд наполовину — появился примерно в то же время, что и среднее арифметическое. В 1599-ом году математик Эдвард Райт, работавший над проблемой нормального отклонения в компасе, впервые предложил использовать медианное значение.

«…Допустим, множество лучников стреляют в некоторую мишень. Цель впоследствии убирают. Каким образом можно узнать, где была цель? Нужно найти среднее место между всеми стрелами. Аналогично, среди множества результатов наблюдений ближе всего к истине будет то, которое находится посередине».

Медианное значение широко использовалось в девятнадцатом столетии, став обязательной частью любого анализа данных в то время. Им также пользовался и Френсис Гальтон, выдающийся аналитик девятнадцатого века. В истории о взвешивании быка, рассказанной вначале этой статьи, Гальтон изначально использовал медианное значение как представляющее мнение толпы.

Множество аналитиков, включая Гальтона, предпочитали медианное значение, поскольку его легче рассчитать для небольших наборов данных.

Тем не менее, медианное значение никогда не было более популярным, чем среднее. Скорее всего, это произошло из-за особых статистических свойств, присущих среднему значению, а также его отношения к нормальному распределению.

Связь среднего значения и нормального распределения

Когда мы проводим множество измерений, их результаты, как говорят статистики, «нормально распределены». Это значит, что если эти данные нанести на график, то точки на нем будут изображать нечто похожее на колокол. Если их соединить, получится «колоколообразная» кривая. Нормальному распределению соответствуют многие статистические данные, например, рост людей, показатель интеллекта, а также показатель самой высокой годовой температуры.

Когда данные нормально распределены, среднее значение будет очень близким к высшей точке на колоколообразной кривой, и очень большое количество измерений будет близким к среднему значению. Существует даже формула, предсказывающая, как много результатов измерений будут находиться на некотором расстоянии от среднего значения.

Таким образом, вычисление среднего значения дает исследователям много дополнительной информации.

Связь среднего значения со стандартным отклонением дает ему большое преимущество, ведь у медианного значения такой связи нет. Эта связь — важная часть анализа экспериментальных данных и статистической обработки информации. Именно поэтому среднее значение стало ядром статистики и всех наук, полагающихся в своих заключениях на множественные данные.

Преимущество среднего значения также связано с тем, что оно легко вычисляется компьютерами. Хотя медианное значение для небольшой группы данных довольно легко вычислить самостоятельно, все же намного проще написать компьютерную программу, которая находила бы среднее значение. Если вы пользуетесь Microsoft Excel, то наверняка знаете, что медианную функцию не так просто рассчитать, как функцию среднего значения.

В итоге, благодаря большому научному значению и простоте использования среднее значение стало главной репрезентативной величиной. Тем не менее, этот вариант далеко не всегда является самым лучшим.

Преимущества медианного значения

Во многих случаях, когда мы хотим вычислить центральное значение распределения, медианное значение является лучшим показателем. Так происходит потому, что среднее значение во многом определяется крайними результатами измерений.

Многие аналитики считают, что бездумное использование среднего значения отрицательно сказывается на нашем понимании количественной информации. Люди смотрят на среднее значение и думают, что это «норма». Но на самом деле оно может быть определено каким-нибудь одним сильно выдающимся из однородного ряда членом.

Представьте себе аналитика, желающего узнать репрезентативное значение для стоимости пяти домов. Четыре дома стоят $100,000, а пятый — $900,000. Среднее значение, таким образом, будет равняться $200,000, а медианное — $100,000. В этом, как и во многих других случаях, медианное значение дает лучшее понимание того, что можно назвать «стандартом».

Понимая, насколько сильно крайние значения могут сказаться на среднем, для отражения изменений в семейных доходах США используется медианное значение.

Медианные показатель также менее чувствителен к «грязным» данным, с которыми сегодня имеют дело аналитики. Многие статистики и аналитики собирают информацию, опрашивая людей в интернете. Если пользователь случайно добавит в ответ лишний ноль, который превратит 100 в 1000, то эта ошибка намного сильнее скажется на среднем значении, чем на медианном.

Среднее или медианное?

Выбор между медианным и средним значением имеет далеко идущие последствия — от нашего понимания влияния лекарств на здоровье до знаний относительно того, какой семейный бюджет можно назвать стандартным.

Поскольку сбор и анализ данных все больше определяет то, как мы понимаем мир, растет и значение используемых нами величин. В идеальном мире аналитики использовали бы и среднее, и медианное значение для графического выражения данных.

Но мы живем в условиях ограниченного времени и внимания. Из-за этих ограничений часто нам необходимо выбрать лишь что-то одно. И во многих случаях предпочтительней именно медианное значение.

Функция МЕДИАНА в Excel используется для анализа диапазона числовых значений и возвращает число, которое является серединой исследуемого множества (медианой). То есть, данная функция условно разделяет множество чисел на два подмножества, первое из которых содержит числа меньше медианы, а второе – больше. Медиана является одним из нескольких методов определения центральной тенденции исследуемого диапазона.

Примеры использования функции МЕДИАНА в Excel

При исследовании возрастных групп студентов использовались данные случайно выбранной группы учащихся в ВУЗе. Задача – определить срединный возраст студентов.

Исходные данные:

Формула для расчета:


Описание аргумента:

  • B3:B15 – диапазон исследуемых возрастов.

Полученный результат:

То есть в группе есть студенты, возраст которых меньше 21 года и больше этого значения.



Сравнение функций МЕДИАНА и СРЗНАЧ для вычисления среднего значения

Во время вечернего обхода в больнице каждому больному была замерена температура тела. Продемонстрировать целесообразность использования параметра медиана вместо среднего значения для исследования ряда полученных значений.

Исходные данные:

Формула для нахождения среднего значения:

Формула для нахождения медианы:

Как видно из показателя среднего значения, в среднем температура у пациентов выше нормы, однако это не соответствует действительности. Медиана показывает, что как минимум у половины пациентов наблюдается нормальная температура тела, не превышающая показатель 36,6.

Внимание! Еще одним методом определения центральной тенденции является мода (наиболее часто встречающееся значение в исследуемом диапазоне). Чтобы определить центральную тенденцию в Excel следует использовать функцию МОДА. Обратите внимание: в данном примере значения медианы и моды совпадают:

То есть срединная величина, делящая одно множество на подмножества меньших и больших значений также является и наиболее часто встречающимся значением в множестве. Как видно, у большинства пациентов температура составляет 36,6.

Пример расчета медианы при статистическом анализе в Excel

Пример 3. В магазине работают 3 продавца. По результатам последних 10 дней необходимо определить работника, которому будет выдана премия. При выборе лучшего работника учитывается степень эффективности его работы, а не число проданных товаров.

Исходная таблица данных:


Для характеристики эффективности будем использовать сразу три показателя: среднее значение, медиана и мода. Определим их для каждого работника с использованием формул СРЗНАЧ, МЕДИАНА и МОДА соответственно:


Для определения степени разброса данных используем величину, которая является суммарным значением модуля разницы среднего значения и моды, среднего значения и медианы соответственно. То есть коэффициент x=|av-med|+|av-mod|, где:

  • av – среднее значение;
  • med – медиана;
  • mod – мода.

Рассчитаем значение коэффициента x для первого продавца:

Аналогично проведем расчеты для остальных продавцов. Полученные результаты:


Определим продавца, которому будет выдана премия:

Примечание: функция НАИМЕНЬШИЙ возвращает первое минимальное значение из рассматриваемого диапазона значений коэффициента x.


Коэффициент x является некоторой количественной характеристикой стабильности работы продавцов, которую ввел экономист магазина. С его помощью удалось определить диапазон с наименьшими отклонениями значений. Этот способ демонстрирует, как можно использовать сразу три метода определения центральной тенденции для получения наиболее достоверных результатов.

Особенности использования функции МЕДИАНА в Excel

Функция имеет следующий синтаксис:

МЕДИАНА(число1; [число2];...)

Описание аргументов:

  • число1 – обязательный аргумент, характеризующий первое числовое значение, содержащееся в исследуемом диапазоне;
  • [число2] – необязательный второй (и последующие аргументы, всего до 255 аргументов), характеризующий второе и последующие значения исследуемого диапазона.

Примечания 1:

  1. При расчетах удобнее передавать сразу весь диапазон исследуемых значений вместо последовательного ввода аргументов.
  2. В качестве аргументов принимаются данные числового типа, имена, содержащие числа, данные ссылочного типа и массивы (например, =МЕДИАНА({1;2;3;5;7;10})).
  3. При расчете медианы учитываются ячейки, содержащие пустые значения или логические ИСТИНА, ЛОЖЬ, которые будут интерпретированы как числовые значения 1 и 0 соответственно. Например, результат выполнения функции с логическими значениями в аргументах (ИСТИНА;ЛОЖЬ) эквивалентен результату выполнения с аргументами (1;0) и равен 0,5.
  4. Если один или несколько аргументов функции принимают текстовые значения, которые не могут быть преобразованы в числовые, или содержат коды ошибок, результатом выполнения функции будет код ошибки #ЗНАЧ!.
  5. Для определения медианы выборки могут быть использованы другие функции Excel: ПРОЦЕНТИЛЬ.ВКЛ, КВАРТИЛЬ.ВКЛ, НАИБОЛЬШИЙ Примеры использования:
  • =ПРОЦЕНТИЛЬ.ВКЛ(A1:A10;0,5), поскольку по определению медиана – 50-я процентиль.
  • =КВАРТИЛЬ.ВКЛ(A1:A10;2), так как медиана – 2-я квартиль.
  • =НАИБОЛЬШИЙ(A1:A9;СЧЁТ(A1:A9)/2), но только если количество чисел в диапазоне является нечетным числом.

Примечания 2:

  1. Если в исследуемом диапазоне все числа распределены симметрично относительно среднего значения, среднее арифметическое и медиана для данного диапазона будут эквивалентны.
  2. При больших отклонениях данных в диапазоне («разбросе» значений) медиана лучше отражает тенденцию распределения значений, чем среднее арифметическое. Отличным примером является использование медианы для определения реального уровня зарплат у населения государства, в котором чиновники получают на порядок больше обычных граждан.
  3. Диапазон исследуемых значений может содержать:
  • Нечетное количество чисел. В этом случае медианой будет являться единственное число, разделяющее диапазон на два подмножества больших и меньших значений соответственно;
  • Четное количество чисел. Тогда медиана вычисляется как среднее арифметическое для двух числовых значений, разделяющих множество на два указанных выше подмножества.