Основные свойства точечных оценок

Для того чтобы оценка имела практическую ценность, она должна обладать следующими свойствами.

1. Оценка параметра называется несмещенной, если ее математическое ожидание равно оцениваемому параметру, т.е.

Если равенство (22.1) не выполняется, то оценка может либо завышать значение (М>), либо занижать его (М <) . Естественно в качестве приближенного неизвестного параметра брать несмещенные оценки для того, чтобы не делать систематической ошибки в сторону завышения или занижения.

2. Оценка параметра называется состоятельной, если она подчиняется закону больших чисел, т.е. сходится по вероятности к оцениваемому параметру при неограниченном возрастании числа опытов (наблюдений) и, следовательно, выполняется следующее равенство:

где > 0 сколько угодно малое число.

Для выполнения (22.2) достаточно, чтобы дисперсия оценки стремилась к нулю при, т.е.

и кроме того, чтобы оценка была несмещенной. От формулы (22.3) легко перейти к (22.2) , если воспользоваться неравенством Чебышева.

Итак, состоятельность оценки означает, что при достаточно большом количестве опытов и со сколько угодно большой достоверностью отклонение оценки от истинного значения параметра меньше любой наперед заданной величины. Этим оправдано увеличение объема выборки.

Так как - случайная величина, значение которой изменяется от выборки к выборке, то меру ее рассеивания около математического ожидания будем характеризовать дисперсией D. Пусть и - две несмещенные оценки параметра, т.е. M = и M = , соответственно D и D и, если D < D , то в качестве оценки принимают.

3. Несмещенная оценка, которая имеет наименьшую дисперсию среди всех возможных несмещенных оценок параметра, вычисленных по выборкам одного и того же объема, называется эффективной оценкой.

На практике при оценке параметров не всегда удается удовлетворить одновременно требованиям 1, 2, 3. Однако выбору оценки всегда должно предшествовать ее критическое рассмотрение со всех точек зрения. При выборке практических методов обработки опытных данных необходимо руководствоваться сформулированными свойствами оценок.

Оценка математического ожидания и дисперсии по выборке

Наиболее важными характеристиками случайной величины являются математическое ожидание и дисперсия. Рассмотрим вопрос о том, какие выборочные характеристики лучше всего оценивают математическое ожидание и дисперсию в смысле несмещенности, эффективности и состоятельности.

Теорема 23.1. Арифметическая средняя, вычисленная по n независимым наблюдениям над случайной величиной, которая имеет математическое ожидание M = , является несмещенной оценкой этого параметра.

Доказательство.

Пусть - n независимых наблюдений над случайной величиной. По условию M = , а т.к. являются случайными величинами и имеют тот же закон распределения, то тогда. По определению средняя арифметическая

Рассмотрим математическое ожидание средней арифметической. Используя свойство математического ожидания, имеем:

т.е. . В силу (22.1) является несмещенной оценкой. ?

Теорема 23.2 . Арифметическая средняя, вычисленная по n независимым наблюдениям над случайной величиной, которая имеет M = и, является состоятельной оценкой этого параметра.

Доказательство.

Пусть - n независимых наблюдений над случайной величиной. Тогда в силу теоремы 23.1 имеем M = .

Для средней арифметической запишем неравенство Чебышева:

Используя свойства дисперсии 4,5 и (23.1), имеем:

т.к. по условию теоремы.

Следовательно,

Итак, дисперсия средней арифметической в n раз меньше дисперсии случайной величины. Тогда

а это значит, что является состоятельной оценкой.

Замечание : 1 . Примем без доказательства весьма важный для практики результат. Если N (a,), то несмещенная оценка математического ожидания a имеет минимальную дисперсию, равную, поэтому является эффективной оценкой параметра а. ?

Перейдем к оценке для дисперсии и проверим ее на состоятельность и несмещенность.

Теорема 23.3 . Если случайная выборка состоит из n независимых наблюдений над случайной величиной с

M = и D = , то выборочная дисперсия

не является несмещенной оценкой D - генеральной дисперсии.

Доказательство.

Пусть - n независимых наблюдений над случайной величиной. По условию и для всех. Преобразуем формулу (23.3) выборочной дисперсии:


Упростим выражение

Принимая во внимание (23.1), откуда

ТЕМА: Точечные оценки математического ожидания. Точечные оценки дисперсии. Точечная оценка вероятности события. Точечная оценка параметров равномерного распределения.

п.1. Точечные оценки математического ожидания.

Предположим, что функция распределения случайной величины ξ зависит от неизвестного параметра θ : P (ξ θ;).

Если x 1 , x 2 …., x n - выборка из генеральной совокупности случайной величиныξ, то оценкой параметра θ называется произвольная функция от выборочных значений

Значение оценки меняется от выборки к выборке и, значит, есть случайная величина. В большинстве экспериментов значение этой случайной величины близки к значению оцениваемого параметра, если для любого значения n математическое ожидание величины равно истинному значению параметра, то оценки , удовлетворяющие условию называются несмещенными . Несмещенность оценки означает, что эта оценка не несет в себе систематической ошибки.

Оценка называется состоятельной оценкой параметра θ , если для любого ξ>0 справедливо

Таким образом, с ростом объема выборки увеличивается точность результата.

Пусть x 1 , x 2 x n – выборка из генеральной совокупности, соответствующей случайной величине ξ с неизвестным математическим ожиданием и известной дисперсией Dξ=σ 2 . Построим несколько оценок неизвестного параметра. Если, то , т.е. рассматриваемая оценка является несмещенной оценкой. Но, поскольку значение вообще не зависит от объема выборки n, то оценка не является состоятельной.

Эффективной оценкой математического ожидания нормально распределенной случайной величины является оценка

Впредь для оценки неивестного математического ожидания случайной величины будем использовать выборочное среднее, т. е.

Существуют стандартные (регулярные) методы получения оценок неизвестных параметров распределения. Наиболее известные из них: метод моментов , метод максимального правдоподобия и метод наименьших квадратов.

п.2 Точечные оценки дисперсии.

Для дисперсии σ 2 случайной величины ξ можно предложить следующую оценку:

где - выборочное среднее.

Доказано, что эта оценка состоятельная, но смещенная.

В качестве состоятельной несмещенной оценки дисперсии исполь­зуют величину

Именно несмещенностью оценки s 2 объясняется ее более частое использование в качестве оценки величины D ξ.

Заметим, что Mathcad предлагает в качестве оценки дисперсии величину , а не s 2: функция var (x ) вычисляет величину

где mean (x ) -выборочное среднее .

ЗАДАНИЕ 6.5

Μξ и дисперсии D ξ случайной величины ξ по приведенным в задании выборочным значениям .

Порядок выполнения задания

    Прочитайте с диска файл, содержащий выборочные значения, или введите заданную выборку с клавиатуры.

    Вычислите точечные оценки Μξ и D ξ.

Пример выполнения задания

Найдите состоятельные несмещенные оценки математического ожи­дания Μξ и дисперсии D ξ случайной величины ξ по выборочным значениям, заданным следующей таблицей.

Для выборки, заданной таблицей такого типа (приведено выборочное значение и число, указывающее, сколько раз это значение встречается в выборке), формулы для состоятельных несмещенных оценок математического ожидания и дисперсии имеют вид:

, ,

где k - количество значений в таблице; n i - количество значений x i в выборке; n - объем выборки.

Фрагмент рабочего документа Mathcad с вычислениями точечных оценок приведен ниже.

Из приведенных вычислений видно, что смещенная оценка дает заниженное значение оценки дисперсии.

п.3. Точечная оценка вероятности события

Предположим, что в некотором эксперименте событие А (благоприят­ный исход испытания) происходит с вероятностью p и не происходит с вероятностью q = 1 - р. Задача состоит в получении оценки неизвест­ного параметра распределения p по результатам серии n случайных экспериментов. При заданном числе испытаний n количество бла­гоприятных исходов m в серии испытаний - случайная величина, имеющая распределение Бернулли. Обозначим ее буквой μ.

Если событие А в серии из n независимых испытаний произошло

m раз, то оценку величины p предлагается вычислять по формуле

Выясним свойства предлагаемой оценки. Поскольку случайная ве­личина μ имеет распределение Бернулли, то Μμ= np и M = M = р , т.е. налицо несмещенная оценка.

Для испытаний Бернулли справедлива теорема Бернулли, согласно которой, т.е. оценка p состоятельная.

Доказано, что эта оценка эффективна, так как обладает при прочих равных условиях минимальной дисперсией.

В Mathcad для моделирования выборки значений случайной ве­личины, имеющей распределение Бернулли, предназначена функция rbinom(fc,η,ρ), которая формирует вектор из к случайных чисел, κα­ ι ждое из которых равно числу успехов в серии из η независимых испы­таний с вероятностью успеха ρ в каждом.

ЗАДАНИЕ 6.6

Смоделируйте несколько выборок значений случайной величины, име­ющей распределение Бернулли с заданным значением параметра р . Вычислите для каждой выборки оценку параметра p и сравните с за­данным значением. Представьте результаты вычислений графически.

Порядок выполнения задания

1. Используя функцию rbinom(1, n , p ), опишите и сформируй­те последовательность значений случайной величины, име­ющей распределение Бернулли с заданными p и n для n = 10, 20, ..., Ν, как функцию объема выборки п.

2. Вычислите для каждого значения n точечные оценки веро­ятности р.

Пример выполнения задания

Пример получения точечных оценок выборок объема n = 10, 20,..., 200 значений случайной величины μ, имеющей распределение Бернулли с параметром p = 0.3, приведен ниже.

Указание. Поскольку значением функции является вектор , число успехов в серии n независимых испытаний с вероятностью успеха p в каждом испытании содержится в первой компоненте вектора rbinom(1,n , p ) , т.е. число успехов равно rbinom(1, n , p ). В приведенном выше фрагменте k - я компонента вектора Ρ содержит число успехов в серии 10k независимых испытаний для k = 1,2,..., 200.

п. 4. Точечная оценка параметров равномерного распределения

Обратимся еще к одному поучительному примеру. Пусть - выборка из генеральной совокупности, соответствующей случай­ной величине ξ, имеющей равномерное распределение на отрезке с неизвестным параметром θ . Наша задача - оценить этот неизвестный параметр.

Рассмотрим один из возможных способов построения требуемой оценки. Если ξ - случайная величина, имеющая равномерное распре­деление на отрезке , то Μ ξ = . Поскольку оценка величины известна, Μξ =, то за оценку параметра θ можно взять оценку

Несмещенность оценки очевидна:

Вычислив дисперсию и предел D при n →∞, убедимся в состоятельности оценки :

Для получения другой оценки параметра θ обратимся к другой статистике. Пусть = max). Найдем распределение случайной величины:

Тогда математическое ожидание и дисперсия случайной величины

с распределением равны соответственно:

;

т.е. оценка состоятельная, но смещенная. Однако если вместо = max) рассмотреть = max), то и , и, следовательно, оценка состоятельная и несмещенная.

При этом, поскольку

существенно эффективнее оценки

Например, при п= 97 разброс оценки θ^ в 33 рала меньше разброса оценки

Последний пример еще раз показывает, что выбор статистической оценки неизвестного параметра распределения - важная и нетриви­альная задача.

В Mathcad для моделирования выборки значений случайной величи­ны, имеющей равномерное распределение на отрезке [а, Ь], предназна­чена функция runif(fc,o,b), которая формирует вектор из к случайных чисел, каждое из которых - значение равномерно распределенной на отрезке [а, 6] случайной величины.

Распределение случайной величины (распределение генеральной совокупности) характеризуется обычно рядом числовых характеристик:

  • для нормального распределения N(a, σ) - это математическое ожидание a и среднее квадратическое отклонение σ ;
  • для равномерного распределения R(a,b) - это границы интервала , в котором наблюдаются значения этой случайной величины.
Такие числовые характеристики, как правило, неизвестные, называются параметрами генеральной совокупности . Оценка параметра - соответствующая числовая характеристика, рассчитанная по выборке. Оценки параметров генеральной совокупности делятся на два класса: точечные и интервальные .

Когда оценка определяется одним числом, она называется точечной оценкой . Точечная оценка, как функция от выборки, является случайной величиной и меняется от выборки к выборке при повторном эксперименте.
К точечным оценкам предъявляют требования, которым они должны удовлетворять, чтобы хоть в каком-то смысле быть «доброкачественными». Это несмещённость , эффективность и состоятельность .

Интервальные оценки определяются двумя числами – концами интервала, который накрывает оцениваемый параметр. В отличие от точечных оценок, которые не дают представления о том, как далеко от них может находиться оцениваемый параметр, интервальные оценки позволяют установить точность и надёжность оценок.

В качестве точечных оценок математического ожидания, дисперсии и среднего квадратического отклонения используют выборочные характеристики соответственно выборочное среднее, выборочная дисперсия и выборочное среднее квадратическое отклонение.

Свойство несмещенности оценки .
Желательным требованием к оценке является отсутствие систематической ошибки, т.е. при многократном использовании вместо параметра θ его оценки среднее значение ошибки приближения равно нулю - это свойство несмещенности оценки .

Определение . Оценка называется несмещенной , если ее математическое ожидание равно истинному значению оцениваемого параметра:

Выборочное среднее арифметическое является несмещенной оценкой математического ожидания, а выборочная дисперсия - смещенная оценка генеральной дисперсии D . Несмещенной оценкой генеральной дисперсии является оценка

Свойство состоятельности оценки .
Второе требование к оценке - ее состоятельность - означает улучшение оценки с увеличением объема выборки.

Определение . Оценка называется состоятельной , если она сходится по вероятности к оцениваемому параметру θ при n→∞.


Сходимость по вероятности означает, что при большом объеме выборки вероятность больших отклонений оценки от истинного значения мала.

Свойство эффективной оценки .
Третье требование позволяет выбрать лучшую оценку из нескольких оценок одного и того же параметра.

Определение . Несмещенная оценка является эффективной , если она имеет наименьшую среди всех несмещенных оценок дисперсию.

Это означает, что эффективная оценка обладает минимальным рассеиванием относительно истинного значения параметра. Заметим, что эффективная оценка существует не всегда, но из двух оценок обычно можно выбрать более эффективную, т.е. с меньшей дисперсией. Например, для неизвестного параметра a нормальной генеральной совокупности N(a,σ) в качестве несмещенной оценки можно взять и выборочное среднее арифметическое, и выборочную медиану. Но дисперсия выборочной медианы примерно в 1.6 раза больше, чем дисперсия среднего арифметического. Поэтому более эффективной оценкой является выборочное среднее арифметическое.

Пример №1 . Найдите несмещенную оценку дисперсии измерений некоторой случайной величины одним прибором (без систематических ошибок), результаты измерения которой (в мм): 13,15,17.
Решение. Таблица для расчета показателей.

x |x - x ср | (x - x ср) 2
13 2 4
15 0 0
17 2 4
45 4 8

Простая средняя арифметическая (несмещенная оценка математического ожидания)


Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего - смещенная оценка).


Несмещенная оценка дисперсии - состоятельная оценка дисперсии (исправленная дисперсия).

Пример №2 . Найдите несмещенную оценку математического ожидания измерений некоторой случайной величины одним прибором (без систематических ошибок), результаты измерения которой (в мм): 4,5,8,9,11.
Решение. m = (4+5+8+9+11)/5 = 7.4

Пример №3 . Найдите исправленную дисперсию S 2 для выборки объема n=10, если выборочная диспресия равна D = 180.
Решение. S 2 = n*D/(n-1) = 10*180/(10-1) = 200

Пусть имеется случайная величина X, и ее параметры математическое ожидание а и дисперсия неизвестны. Над величиной X произведеноn независимых опытов, давших результаты x 1, x 2, x n .

Не уменьшая общности рассуждений, будем считать эти значения случайной величины различными. Будем рассматривать значения x 1, x 2, x n как независимые, одинаково распределенные случайные величины X 1, X 2, X n .

Простейший метод статистического оценивания - метод подстановки и аналогии - состоит в том, что в качестве оценки той или иной числовой характеристики (среднего, дисперсии и др.) генеральной совокупности берут соответствующую характеристику распределения выборки - выборочную характеристику.

По методу подстановки в качестве оценки математического ожидания а надо взять математическое ожидание распределения выборки - выборочное среднее. Таким образом, получаем

Чтобы проверить несмещенность и состоятельность выборочного среднего как оценки а , рассмотрим эту статистику как функцию выбранного вектора (X 1, X 2, X n). Приняв во внимание, что каждая из величин X 1, X 2, X n имеет тот же закон распределения, что и величина X, заключаем, что и числовые характеристики этих величин и величины X одинаковые: M(X i ) = M(X) = a , D(X i ) = D(X) = , i = 1, 2, n, причем X i - независимые в совокупности случайные величины.

Следовательно,

Отсюда по определению получаем, что - несмещенная оценка а , и так как D()®0 при n®¥, то в силу теоремы предыдущего параграфа является состоятельной оценкой математического ожидания а генеральной совокупности.

Эффективность или неэффективность оценки зависит от вида закона распределения случайной величины X. Можно доказать, что если величина X распределена по нормальному закону, то оценка является эффективной. Для других законов распределения это может быть не так.

Несмещенной оценкой генеральной дисперсии служит исправленная выборочная дисперсия

,

Так как , где - генеральная дисперсия. Действительно,

Оценка s -- 2 для генеральной дисперсии является также и состоятельной, но не является эффективной. Однако в случае нормального распределения она является «асимптотически эффективной», то есть при увеличении n отношение ее дисперсии к минимально возможной неограниченно приближается к единице.

Итак, если дана выборка из распределения F(x ) случайной величины X с неизвестным математическим ожиданием а и дисперсией , то для вычисления значений этих параметров мы имеем право пользоваться следующими приближенными формулами:

a ,

.

Здесь x- i - - варианта выборки, n- i - - частота варианты x i , - - объем выборки.
Для вычисления исправленной выборочной дисперсии более удобна формула


.

Для упрощения расчета целесообразно перейти к условным вариантам (в качестве с выгодно брать первоначальную варианту, расположенную в середине интервального вариационного ряда). Тогда

, .

Интервальное оценивание

Выше мы рассмотрели вопрос об оценке неизвестного параметра а одним числом. Такие оценки мы назвали точечными. Они имеют тот недостаток, что при малом объеме выборки могут значительно отличаться от оцениваемых параметров. Поэтому, чтобы получить представление о близости между параметром и его оценкой, в математической статистике вводятся, так называемые, интервальные оценки.

Пусть во выборке для параметра q найдена точечная оценка q * . Обычно исследователи заранее задаются некоторой достаточно большой вероятностью g (например, 0,95; 0,99 или 0,999) такой, что событие с вероятностью g можно считать практически достоверным, и ставят вопрос об отыскании такого значения e > 0, для которого

.

Видоизменив это равенство, получим:

и будем в этом случае говорить, что интервал ]q * - e; q * + e[ покрывает оцениваемый параметр q с вероятностью g.

Интервал ]q * -e; q * +e [ называется доверительным интервалом .

Вероятность g называется надежностью (доверительной вероятностью) интервальной оценки.

Концы доверительного интервала, т.е. точки q * -e и q * +e называются доверительными границами .

Число e называется точностью оценки .

В качестве примера задачи об определении доверительных границ, рассмотрим вопрос об оценке математического ожидания случайной величины Х, имеющей нормальный закон распределения с параметрами а и s, т.е. Х = N(a , s). Математическое ожидание в этом случае равно а . По наблюдениям Х 1 , Х 2 , Х n вычислим среднее и оценку дисперсии s 2 .

Оказывается, что по данным выборки можно построить случайную величину

которая имеет распределение Стьюдента (или t-распределение) с n = n -1 степенями свободы.

Воспользуемся таблицей П.1.3 и найдем для заданных вероятности g и числа n число t g такое, при котором вероятность

P(|t(n)| < t g) = g,

.

Сделав очевидные преобразования получим,

Порядок применения F-критерия следующий:

1. Принимается предположение о нормальности распределения генеральных совокупностей. При заданном уровне значимости a формулируется нулевая гипотеза Н 0: s х 2 = s y 2 о равенстве генеральных дисперсий нормальных совокупностей при конкурирующей гипотезе Н 1: s х 2 > s y 2 .

2. Получают две независимые выборки из совокупностей Х и Y объемом n x и n y соответственно.

3. Рассчитывают значения исправленных выборочных дисперсий s х 2 и s y 2 (методы расчета рассмотрены в §13.4). Большую из дисперсий (s х 2 или s y 2) обозначают s 1 2 , меньшую - s 2 2 .

4. Вычисляется значение F-критерия по формуле F набл = s 1 2 / s 2 2 .

5. По таблице критических точек распределения Фишера - Снедекора, по заданному уровню значимости a и числом степеней свободы n 1 = n 1 - 1, n 2 = n 2 - 1 (n 1 - число степеней свободы большей исправленной дисперсии), находится критическая точка F кр (a, n 1 , n 2).

Отметим, что в таблице П.1.7 приведены критические значения одностороннего F-критерия. Поэтому, если применяется двусторонний критерий (Н 1: s х 2 ¹ s y 2), то правостороннюю критическую точку F кр (a/2, n 1 , n 2) ищут по уровню значимости a/2 (вдвое меньше заданного) и числам степеней свободы n 1 и n 2 (n 1 - число степеней свободы большей дисперсии). Левостороннюю критическую точку можно и не отыскивать.

6. Делается вывод: если вычисленное значение F-критерия больше или равно критическому (F набл ³ F кр), то дисперсии различаются значимо на заданном уровне значимости. В противном случае (F набл < F кр) нет оснований для отклонения нулевой гипотезы о равенстве двух дисперсий.

Задача 15.1 . Расход сырья на единицу продукции по старой технологии составил:

По новой технологии:

Предположив, что соответствующие генеральные совокупности X и Y имеют нормальные распределения, проверить, что по вариативности расход сырья по новой и старой технологиям не отличаются, если принять уровень значимости a = 0,1.

Решение . Действуем в порядке, указанном выше.

1. Будем судить о вариативности расхода сырья по новой и старой технологиям по величинам дисперсий. Таким образом, нулевая гипотеза имеет вид Н 0: s х 2 = s y 2 . В качестве конкурирующей примем гипотезу Н 1: s х 2 ¹ s y 2 , поскольку заранее не уверены в том, что какая-либо из генеральных дисперсий больше другой.

2-3. Найдем выборочные дисперсии. Для упрощения вычислений перейдем к условным вариантам:

u i = x i - 307, v i = y i - 304.

Все вычисления оформим в виде следующих таблиц:

u i m i m i u i m i u i 2 m i (u i +1) 2 v i n i n i v i n i v i 2 n i (v i +1) 2
-3 -3 -1 -2
å -
å -

Контроль: å m i u i 2 + 2å m i u i + m i = Контроль: å n i v i 2 + 2å n i v i + n i = 13 + 2 + 9 = 24 = 34 + 20 + 13 = 67

Найдем исправленные выборочные дисперсии:

4. Сравним дисперсии. Найдем отношение большей исправленной дисперсии к меньшей:

.

5. По условию конкурирующая гипотеза имеет вид s х 2 ¹ s y 2 , поэтому критическая область двусторонняя и при отыскании критической точки следует брать уровни значимости, вдвое меньше заданного.

По таблице П.1.7 по уровню значимости a/2 = 0,1/2 = 0,05 и числам степеней свободы n 1 = n 1 - 1 = 12, n 2 = n 2 - 1 = 8 находим критическую точку F кр (0,05; 12; 8) = 3,28.

6. Так как F набл. < F кр то гипотезу о равенстве дисперсий расхода сырья при старой и новой технологиях принимаем.

Выше при проверке гипотез предполагалось нормальность распределения исследуемых случайных величин. Однако специальные исследования показали, что предложенные алгоритмы весьма устойчивы (особенно при больших объемах выборок) по отношению к отклонению от нормального распределения.

ЦЕЛЬ ЛЕКЦИИ: ввести понятие оценки неизвестного параметра распределения и дать классификацию таких оценок; получить точечные и интервальные оценки математического ожидания и дисперсии.

На практике в большинстве случаев закон распределения случайной величины неизвестен, и по результатам наблюдений
необходимо оценить числовые характеристики (например, математическое ожидание, дисперсию или другие моменты) или неизвестный параметр, который определяет закон распределения (плотность распределения)
изучаемой случайной величины. Так, для показательного распределения или распределения Пуассона достаточно оценить один параметр, а для нормального распределения подлежат оценке уже два параметра – математическое ожидание и дисперсия.

Виды оценок

Случайная величина
имеет плотность вероятности
, где– неизвестный параметр распределения. В результате эксперимента получены значения этой случайной величины:
. Произвести оценку по существу означает, что выборочным значениям случайной величины необходимо поставить в соответствие некоторое значение параметра, т. е. создать некоторую функцию результатов наблюдений
, значение которой принимается за оценкупараметра. Индексуказывает на количество проведенных опытов.

Любая функция, зависящая от результатов наблюдений, называется статистикой . Так как результаты наблюдений являются случайными величинами, то и статистика тоже будет случайной величиной. Следовательно, оценку
неизвестного параметраследует рассматривать как случайную величину, а ее значение, вычисленное по экспериментальным данным объемом, – как одно из возможных значений этой случайной величины.

Оценки параметров распределений (числовых характеристик случайной величины) подразделяются на точечные и интервальные. Точечная оценка параметраопределяется одним числом, и ее точность характеризуется дисперсией оценки.Интервальной оценкой называют оценку, которая определяется двумя числами,и– концами интервала, накрывающего оцениваемый параметрс заданной доверительной вероятностью.

Классификация точечных оценок

Чтобы точечная оценка неизвестного параметра
была наилучшей с точки зрения точности, необходимо, чтобы она была состоятельной, несмещенной и эффективной.

Состоятельной называется оценка
параметра, если она сходится по вероятности к оцениваемому параметру, т. е.

. (8.8)

На основании неравенства Чебышева можно показать, что достаточным условием выполнения соотношения (8.8) является равенство

.

Состоятельность является асимптотической характеристикой оценки при
.

Несмещенной называется оценка
(оценка без систематической ошибки), математическое ожидание которой равно оцениваемому параметру, т. е.

. (8.9)

Если равенство (8.9) не выполняется, то оценка называется смещенной. Разность
называется смещением или систематической ошибкой оценки. Если же равенство (8.9) выполняется лишь при
, то соответствующая оценка называется асимптотически несмещенной.

Необходимо отметить, что если состоятельность – практически обязательное условие всех используемых на практике оценок (несостоятельные оценки используются крайне редко), то свойство несмещенности является лишь желательным. Многие часто применяемые оценки свойством несмещенности не обладают.

В общем случае точность оценки некоторого параметра , полученная на основании опытных данных
, характеризуется средним квадратом ошибки

,

который можно привести к виду

,

где –дисперсия,
– квадрат смещения оценки.

Если оценка несмещенная, то

При конечных оценки могут различаться средним квадратом ошибки. Естественно, что, чем меньше эта ошибка, тем теснее группируются значения оценки около оцениваемого параметра. Поэтому всегда желательно, чтобы ошибка оценки была по возможности наименьшей, т. е. выполнялось условие

. (8.10)

Оценку , удовлетворяющую условию (8.10), называют оценкой с минимальным квадратом ошибки.

Эффективной называется оценка
, для которой средний квадрат ошибки не больше среднего квадрата ошибки любой другой оценки, т. е.

где – любая другая оценка параметра.

Известно, что дисперсия любой несмещенной оценки одного параметра удовлетворяет неравенству Крамера – Рао

,

где
– условная плотность распределения вероятностей полученных значений случайной величины при истинном значении параметра.

Таким образом, несмещенная оценка
, для которой неравенство Крамера – Рао обращается в равенство, будет эффективной, т. е. такая оценка имеет минимальную дисперсию.

Точечные оценки математического ожидания и дисперсии

Если рассматривается случайная величина
, имеющая математическое ожиданиеи дисперсию, то оба эти параметра считаются неизвестными. Поэтому над случайной величиной
производитсянезависимых опытов, которые дают результаты:
. Необходимо найти состоятельные и несмещенные оценки неизвестных параметров и.

В качестве оценок иобычно выбираются соответственно статистическое (выборочное) среднее значение и статистическая (выборочная) дисперсия:

; (8.11)

. (8.12)

Оценка математического ожидания (8.11) является состоятельной согласно закону больших чисел (теорема Чебышева):

.

Математическое ожидание случайной величины

.

Следовательно, оценка является несмещенной.

Дисперсия оценки математического ожидания:

Если случайная величина
распределена по нормальному закону, то оценкаявляется также и эффективной.

Математическое ожидание оценки дисперсии

В то же время

.

Так как
, а
, то получаем

. (8.13)

Таким образом,
– смещенная оценка, хотя является состоятельной и эффективной.

Из формулы (8.13) следует, что для получения несмещенной оценки
следует видоизменить выборочную дисперсию (8.12) следующим образом:

которая считается "лучшей" по сравнению с оценкой (8.12), хотя при больших эти оценки практически равны друг другу.

Методы получения оценок параметров распределения

Часто на практике на основании анализа физического механизма, порождающего случайную величину
, можно сделать вывод о законе распределения этой случайной величины. Однако параметры этого распределения неизвестны, и их необходимо оценить по результатам эксперимента, обычно представленных в виде конечной выборки
. Для решения такой задачи чаще всего применяются два метода: метод моментов и метод максимального правдоподобия.

Метод моментов . Метод состоит в приравнивании теоретических моментов соответствующим эмпирическим моментам того же порядка.

Эмпирические начальные моменты -го порядка определяются формулами:

,

а соответствующие им теоретические начальные моменты -го порядка – формулами:

для дискретных случайных величин,

для непрерывных случайных величин,

где – оцениваемый параметр распределения.

Для получения оценок параметров распределения, содержащего два неизвестных параметра и, составляется система из двух уравнений

где и– теоретический и эмпирический центральные моменты второго порядка.

Решением системы уравнений являются оценки инеизвестных параметров распределенияи.

Приравняв теоретический эмпирический начальные моменты первого порядка, получаем, что оценкой математического ожидания случайной величины
, имеющей произвольное распределение, будет выборочное среднее, т. е.
. Затем, приравняв теоретический и эмпирический центральные моменты второго порядка, получим, что оценка дисперсии случайной величины
, имеющей произвольное распределение, определяется формулой

.

Подобным образом можно найти оценки теоретических моментов любого порядка.

Метод моментов отличается простотой и не требует сложных вычислений, но полученные этим методом оценки часто являются неэффективными.

Метод максимального правдоподобия . Метод максимального правдоподобия точечной оценки неизвестных параметров распределения сводится к отысканию максимума функции одного или нескольких оцениваемых параметров.

Пусть
– непрерывная случайная величина, которая в результатеиспытаний приняла значения
. Для получения оценки неизвестного параметранеобходимо найти такое значение, при котором вероятность реализации полученной выборки была бы максимальной. Так как
представляют собой взаимно независимые величины с одинаковой плотностью вероятности
, тофункцией правдоподобия называют функцию аргумента :

Оценкой максимального правдоподобия параметра называется такое значение, при котором функция правдоподобия достигает максимума, т. е. является решением уравнения

,

которое явно зависит от результатов испытаний
.

Поскольку функции
и
достигают максимума при одних и тех же значениях
, то часто для упрощения расчетов используют логарифмическую функцию правдоподобия и ищут корень соответствующего уравнения

,

которое называется уравнением правдоподобия .

Если необходимо оценить несколько параметров
распределения
, то функция правдоподобия будет зависеть от этих параметров. Для нахождения оценок
параметров распределения необходимо решить системууравнений правдоподобия

.

Метод максимального правдоподобия дает состоятельные и асимптотически эффективные оценки. Однако получаемые методом максимального правдоподобия оценки бывают смещенными, и, кроме того, для нахождения оценок часто приходится решать достаточно сложные системы уравнений.

Интервальные оценки параметров

Точность точечных оценок характеризуется их дисперсией. При этом отсутствуют сведения о том, насколько близки полученные оценки истинным значениям параметров. В ряде задач требуется не только найти для параметра подходящее численное значение, но и оценить его точность и надежность. Необходимо узнать, к каким ошибкам может привести замена параметраего точечной оценкойи с какой степенью уверенности следует ожидать, что эти ошибки не выйдут за известные пределы.

Такие задачи особенно актуальны при малом числе опытов , когда точечная оценкав значительной степени случайна и приближенная заменанаможет привести к значительным ошибкам.

Более полный и надежный способ оценивания параметров распределений заключается в определении не единственного точечного значения, а интервала, который с заданной вероятностью накрывает истинное значение оцениваемого параметра.

Пусть по результатам опытов получена несмещенная оценка
параметра. Необходимо оценить возможную ошибку. Выбирается некоторая достаточно большая вероятность
(например), такая, что событие с этой вероятностью можно считать практически достоверным событием, и находится такое значение, для которого

. (8.15)

В этом случае диапазон практически возможных значений ошибки, возникающей при замене на, будет
, а большие по абсолютной величине ошибки будут появляться лишь с малой вероятностью.

Выражение (8.15) означает, что с вероятностью
неизвестное значение параметрапопадет в интервал

. (8.16)

Вероятность
называетсядоверительной вероятностью , а интервал, накрывающий с вероятностьюистинное значение параметра, называетсядоверительным интервалом . Заметим, что неправильно говорить, что значение параметра лежит внутри доверительного интервала с вероятностью. Используемая формулировка (накрывает) означает, что хотя оцениваемый параметр и неизвестен, но он имеет постоянное значение и, следовательно, не имеет разброса, поскольку это не случайная величина.