Медианой Ме называют такое значение признака, которое приходится на середину ранжированного ряда и делит его на две равные по числу единиц части. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака, превышающие медиану, другая – меньше медианы.

Медиану используют вместо средней арифметической, когда крайние варианты ранжированного ряда (наименьшая и наибольшая) по сравнению с остальными оказываются чрезмерно большими или чрезмерно малыми.

В дискретном вариационном ряду, содержащем нечетное число единиц, медиана равна варианте признака, имеющей номер :
,
где N – число единиц совокупности.
В дискретном ряду, состоящем из четного числа единиц совокупности, медиана определяется как средняя из вариант, имеющих номера и :
.
В распределении рабочих по стажу работы медиана равна средней из вариант, имеющих в ранжированном ряду номера 10: 2 = 5 и 10: 2 + 1 = 6. Варианты пятого и шестого признака равны 4 годам, таким образом
года
При вычислении медианы в интервальном ряду сначала находят медианный интервал , (т. е. содержащий медиану), для чего используют накопленные частоты или частости. Медианным является интервал, накопленная частота которого равна или превышает половину всего объема совокупности. Затем значение медианы рассчитывается по формуле:
,
где – нижняя граница медианного интервала;
– ширина медианного интервала;
– накопленная частота интервала, предшествующего медианному;
– частота медианного интервала.
Рассчитаем медиану ряда распределения рабочих по размеру зарплаты (см. лекцию «Сводка и группировка статистических данных»).
Медианным является интервал заработной платы 800-900 грн., поскольку его кумулятивная частота равна 17, что превышает половину суммы всех частот (). Тогда
Ме=800+100грн.
Полученное значение говорит о том, половина рабочих имеют заработную плату ниже 875 грн., но это выше среднего ее размера.
Для определения медианы можно вместо кумулятивных частот использовать кумулятивные частости .
Медиана, как и мода, не зависит от крайних значений вариант, поэтому также применяется для характеристики центра в рядах распределения с неопределенными границами.
Свойство медианы :сумма абсолютных величин отклонений вариант от медианы меньше, чем от любой другой величины (в том числе и от средней арифметической):

Это свойство медианы используется на транспорте при проектировании расположения трамвайных и троллейбусных остановок, бензоколонок, сборочных пунктов и т..д.
Пример. На шоссе длиной 100 км расположено 10 гаражей. Для проектирования строительства бензоколонки были собраны данные о числе предполагаемых ездок на заправку по каждому гаражу.
Таблица 2 – Данные о количестве ездок на заправку по каждому гаражу.

Нужно поставить бензоколонку так, чтобы общий пробег автомашин на заправку был наименьшим.
Вариант 1. Если бензоколонку поставить в середине шоссе, т. е. на 50-ом километре (центр диапазона изменения признака), то пробеги с учетом числа ездок составят:
а) в одном направлении:
;
б) в противоположном:
;
в) общий пробег в оба направления: .

Вариант 2. Если бензоколонку поставить на среднем участке шоссе, определенном по формуле средней арифметической с учетом числа ездок:

Медиану можно определить графически, по кумуляте (см. лекцию «Сводка и группировка статистических данных»). Для этого последнюю ординату, равную сумме всех частот или частостей, делят пополам. Из полученной точки восстанавливают перпендикуляр до пересечения с кумулятой. Абсцисса точки пересечения и дает значение медианы.

Мода и медиана – особого рода средние, которые используются для изучения структуры вариационного ряда. Их иногда называют структурными средними, в отличие от рассмотренных ранее степенных средних.

Мода – это величина признака (варианта), которая чаще всего встречается в данной совокупности, т.е. имеет наибольшую частоту.

Мода имеет большое практическое применение и в ряде случаев только мода может дать характеристику общественных явлений.

Медиана – это варианта, которая находится в середине упорядоченного вариационного ряда.

Медиана показывает количественную границу значения варьирующего признака, которой достигла половина единиц совокупности. Применение медианы наряду со средней или вместо нее целесообразно при наличии в вариационном ряду открытых интервалов, т.к. для вычисления медианы не требуется условное установление границ отрытых интервалов, и поэтому отсутствие сведений о них не влияет на точность вычисления медианы.

Медиану применяют также тогда, когда показатели, которые нужно использовать в качестве весов, неизвестны. Медиану применяют вместо средней арифметической при статистических методах контроля качества продукции. Сумма абсолютных отклонений варианты от медианы меньше, чем от любого другого числа.

Рассмотрим расчет моды и медианы в дискретном вариационном ряду:

Определить моду и медиану.

Мода Мо = 4 года, так как этому значению соответствует наибольшая частота f = 5.

Т.е. наибольшее число рабочих имеют стаж 4 года.

Для того, чтобы вычислить медиану, найдем предварительно половину суммы частот. Если сумма частот является числом нечетным, то мы сначала прибавляем к этой сумме единицу, а затем делим пополам:

Медианой будет восьмая по счету варианта.

Для того, чтобы найти, какая варианта будет восьмой по номеру, будем накапливать частоты до тех пор, пока не получим сумму частот, равную или превышающую половину суммы всех частот. Соответствующая варианта и будет медианой.

Ме = 4 года.

Т.е. половина рабочих имеет стаж меньше четырех лет, половина больше.

Если сумма накопленных частот против одной варианты равна половине сумме частот, то медиана определяется как средняя арифметическая этой варианты и последующей.

Вычисление моды и медианы в интервальном вариационном ряду

Мода в интервальном вариационном ряду вычисляется по формуле

где Х М0 - начальная граница модального интервала,

h м 0 – величина модального интервала,

f м 0 , f м 0-1 , f м 0+1 – частота соответственно модального интервала, предшествующего модальному и последующего.

Модальным называется такой интервал, которому соответствует наибольшая частота.

Пример 1

Группы по стажу

Число рабочих, чел

Накопленные частоты

Определить моду и медиану.

Модальный интервал , т.к. ему соответствует наибольшая частота f = 35. Тогда:

Хм 0 =6, 0 =35

Функция МЕДИАНА в Excel используется для анализа диапазона числовых значений и возвращает число, которое является серединой исследуемого множества (медианой). То есть, данная функция условно разделяет множество чисел на два подмножества, первое из которых содержит числа меньше медианы, а второе – больше. Медиана является одним из нескольких методов определения центральной тенденции исследуемого диапазона.

Примеры использования функции МЕДИАНА в Excel

При исследовании возрастных групп студентов использовались данные случайно выбранной группы учащихся в ВУЗе. Задача – определить срединный возраст студентов.

Исходные данные:

Формула для расчета:


Описание аргумента:

  • B3:B15 – диапазон исследуемых возрастов.

Полученный результат:

То есть в группе есть студенты, возраст которых меньше 21 года и больше этого значения.



Сравнение функций МЕДИАНА и СРЗНАЧ для вычисления среднего значения

Во время вечернего обхода в больнице каждому больному была замерена температура тела. Продемонстрировать целесообразность использования параметра медиана вместо среднего значения для исследования ряда полученных значений.

Исходные данные:

Формула для нахождения среднего значения:

Формула для нахождения медианы:

Как видно из показателя среднего значения, в среднем температура у пациентов выше нормы, однако это не соответствует действительности. Медиана показывает, что как минимум у половины пациентов наблюдается нормальная температура тела, не превышающая показатель 36,6.

Внимание! Еще одним методом определения центральной тенденции является мода (наиболее часто встречающееся значение в исследуемом диапазоне). Чтобы определить центральную тенденцию в Excel следует использовать функцию МОДА. Обратите внимание: в данном примере значения медианы и моды совпадают:

То есть срединная величина, делящая одно множество на подмножества меньших и больших значений также является и наиболее часто встречающимся значением в множестве. Как видно, у большинства пациентов температура составляет 36,6.

Пример расчета медианы при статистическом анализе в Excel

Пример 3. В магазине работают 3 продавца. По результатам последних 10 дней необходимо определить работника, которому будет выдана премия. При выборе лучшего работника учитывается степень эффективности его работы, а не число проданных товаров.

Исходная таблица данных:


Для характеристики эффективности будем использовать сразу три показателя: среднее значение, медиана и мода. Определим их для каждого работника с использованием формул СРЗНАЧ, МЕДИАНА и МОДА соответственно:


Для определения степени разброса данных используем величину, которая является суммарным значением модуля разницы среднего значения и моды, среднего значения и медианы соответственно. То есть коэффициент x=|av-med|+|av-mod|, где:

  • av – среднее значение;
  • med – медиана;
  • mod – мода.

Рассчитаем значение коэффициента x для первого продавца:

Аналогично проведем расчеты для остальных продавцов. Полученные результаты:


Определим продавца, которому будет выдана премия:

Примечание: функция НАИМЕНЬШИЙ возвращает первое минимальное значение из рассматриваемого диапазона значений коэффициента x.


Коэффициент x является некоторой количественной характеристикой стабильности работы продавцов, которую ввел экономист магазина. С его помощью удалось определить диапазон с наименьшими отклонениями значений. Этот способ демонстрирует, как можно использовать сразу три метода определения центральной тенденции для получения наиболее достоверных результатов.

Особенности использования функции МЕДИАНА в Excel

Функция имеет следующий синтаксис:

МЕДИАНА(число1; [число2];...)

Описание аргументов:

  • число1 – обязательный аргумент, характеризующий первое числовое значение, содержащееся в исследуемом диапазоне;
  • [число2] – необязательный второй (и последующие аргументы, всего до 255 аргументов), характеризующий второе и последующие значения исследуемого диапазона.

Примечания 1:

  1. При расчетах удобнее передавать сразу весь диапазон исследуемых значений вместо последовательного ввода аргументов.
  2. В качестве аргументов принимаются данные числового типа, имена, содержащие числа, данные ссылочного типа и массивы (например, =МЕДИАНА({1;2;3;5;7;10})).
  3. При расчете медианы учитываются ячейки, содержащие пустые значения или логические ИСТИНА, ЛОЖЬ, которые будут интерпретированы как числовые значения 1 и 0 соответственно. Например, результат выполнения функции с логическими значениями в аргументах (ИСТИНА;ЛОЖЬ) эквивалентен результату выполнения с аргументами (1;0) и равен 0,5.
  4. Если один или несколько аргументов функции принимают текстовые значения, которые не могут быть преобразованы в числовые, или содержат коды ошибок, результатом выполнения функции будет код ошибки #ЗНАЧ!.
  5. Для определения медианы выборки могут быть использованы другие функции Excel: ПРОЦЕНТИЛЬ.ВКЛ, КВАРТИЛЬ.ВКЛ, НАИБОЛЬШИЙ Примеры использования:
  • =ПРОЦЕНТИЛЬ.ВКЛ(A1:A10;0,5), поскольку по определению медиана – 50-я процентиль.
  • =КВАРТИЛЬ.ВКЛ(A1:A10;2), так как медиана – 2-я квартиль.
  • =НАИБОЛЬШИЙ(A1:A9;СЧЁТ(A1:A9)/2), но только если количество чисел в диапазоне является нечетным числом.

Примечания 2:

  1. Если в исследуемом диапазоне все числа распределены симметрично относительно среднего значения, среднее арифметическое и медиана для данного диапазона будут эквивалентны.
  2. При больших отклонениях данных в диапазоне («разбросе» значений) медиана лучше отражает тенденцию распределения значений, чем среднее арифметическое. Отличным примером является использование медианы для определения реального уровня зарплат у населения государства, в котором чиновники получают на порядок больше обычных граждан.
  3. Диапазон исследуемых значений может содержать:
  • Нечетное количество чисел. В этом случае медианой будет являться единственное число, разделяющее диапазон на два подмножества больших и меньших значений соответственно;
  • Четное количество чисел. Тогда медиана вычисляется как среднее арифметическое для двух числовых значений, разделяющих множество на два указанных выше подмножества.

Для вычисления медианы в MS EXCEL существует специальная функция МЕДИАНА() . В этой статье дадим определение медианы и научимся вычислять ее для выборки и для заданного закона распределения случайной величины.

Начнем с медианы для выборок (т.е. для фиксированного набора значений).

Медиана выборки

Медиана (median) – это число, которое является серединой множества чисел: половина чисел множества больше, чем медиана , а половина чисел меньше, чем медиана .

Для вычисления медианы необходимо сначала (значения в выборке ). Например, медианой для выборки (2; 3; 3; 4 ; 5; 7; 10) будет 4. Т.к. всего в выборке 7 значений, три из них меньше, чем 4 (т.е. 2; 3; 3), а три значения больше (т.е. 5; 7; 10).

Если множество содержит четное количество чисел, то вычисляется для двух чисел, находящихся в середине множества. Например, медианой для выборки (2; 3; 3 ; 6 ; 7; 10) будет 4,5, т.к. (3+6)/2=4,5.

Для определения медианы в MS EXCEL существует одноименная функция МЕДИАНА() , английский вариант MEDIAN().

Медиана не обязательно совпадает со . Совпадение имеет место только в том случае, если значения в выборке распределены симметрично относительно среднего . Например, для выборки (1; 2; 3 ; 4 ; 5; 6) медиана и среднее равны 3,5.

Если известна Функция распределения F(х) или функция плотности вероятности p (х) , то медиану можно найти из уравнения:

Например, решив аналитическим способом это уравнение для Логнормального распределения lnN(μ; σ 2), получим, что медиана вычисляется по формуле =EXP(μ). При μ=0, медиана равна 1.

Обратите внимание на точку Функции распределения , для которой F (х)=0,5 (см. картинку выше). Абсцисса этой точкиравна1. Это и есть значение медианы, что естественно совпадает с ранее вычисленным значением по формуле em.

В MS EXCEL медиану для логнормального распределения LnN(0;1) можно вычислить по формуле =ЛОГНОРМ.ОБР(0,5;0;1) .

Примечание : Напомним, что интеграл от по всей области задания случайной величины равен единице.

Поэтому, линия медианы (х=Медиана) делит площадь под графиком функции плотности вероятности на две равные части.

Медиана (Me) – значение признака, приходящееся на середину ранжированного ряда, т.е. делящее ряд распределения на две равные части.

а) для ряда одиночных значений:

Если нечетное кол-во вариант, то серединное значение в ранжированном ряду

Если четное , то сред.арифмет. из 2х смежных серединных значений в ранжиров. ряду

б) В дискретном ряду распределения определяется номер медианы по формуле:

Номер медианы показывает то значение показателя, которое и является медианой.

в) В интервальном ряду распределения медиана рассчитывается по следующей формуле:

x - нижняя граница медианного интервала;

i - величина интервала;

f - численность медианного интервала;

S - сумма накопленных частот интервалов, предшествующих медианному.

31. Мода и ее практическое значение

Мода (Mo) – величина признака, наиболее часто встречающаяся в совокупности, т.е. имеющая наибольшую численность в ряду распределения.

а) В дискретном ряду распределения мода определяется визуально.

б) В интервальном ряду распределения визуально можно определить только интервал, в котором заключена мода, который называется модальным интервалом(тот, который имеет наибольшую частоту).

Мода будет равна:

x - нижняя граница модального интервала;

i - величина интервала;

f - численность модального интервала;

Если все значения вариационного ряда имеют одинаковую частоту, то говорят, что этот вариационный ряд не имеет моды. Если две не соседних варианты имеют одинаковую доминирующую частоту, то такой вариационный ряд называют бимодальным ; если таких вариант больше двух, то ряд – полимодальный .

32. Показатели вариации и способы их расчета

Вариации – колеблемость, многообразие, изменяемость величины признака у единиц совокупности.

Показатели вариации делятся на абсолютные и относительные.

К абсолютным показателям относятся размах вариации, среднее линейное отклонение, дисперсия, среднее квадратическое отклонение. К относительным – коэффициенты осцилляции, коэффициенты вариации и относительное линейное отклонение.

Размах вариации – простейший показатель, разность между максимальным и минимальным значениями признака.

Недостатком является то, что он оценивает только границы варьирования признака и не отражает его колеблемость внутри этих границ.

Среднее линейное отклонение отражает все колебания варьирующего признака и представляет собой среднюю арифметическую из абсолютных значений отклонений вариант от средней величины, т.к. сумма отклонений значений признака от средней равно 0, то все отклонения берутся по модулю.

Простая
Взвешенная

Дисперсия – средний квадрат отклонений значений признака от их средней величины.

Простая:
Взвешенная:

Среднее квадратическое отклонение . Оно определяется как квадратный корень из дисперсии и имеет ту же размерность, что и изучаемый признак.

Простая:
Взвешенная:
.

Относительные показатели