Рассмотрим построение доверительного интервала для оценки математического ожидания.

Пусть - выборка объемаиз генеральной совокупности объема
;- выборочное среднее;- выборочное среднее квадратическое отклонение.

Доверительный интервал уровня надежности для математического ожидания (генеральной средней) имеет вид

,

где -предельная ошибка выборки , которая зависит от объема выборки , доверительной вероятностии равна половине доверительного интервала.

генеральной средней неизвестном служит доверительный интервал:

где - выборочное среднее;-исправленное выборочное среднее квадратическое отклонение; - параметр, который находится по таблице распределения Стьюдента для (
) степеней свободы и доверительной вероятности.

Интервальной оценкой с надежностью генеральной средней в случае нормального распределения генеральной совокупности приизвестном среднем квадратическом отклонении служит доверительный интервал:

где - выборочное среднее;
- выборочное среднее квадратическое отклонение;- значение аргумента функции Лапласа
, при котором
;- объем выборки.

Выводы . Доверительный интервал для среднего представляет интервал значений вокруг оценки, где с данным уровнем доверия, находится "истинное" (неизвестное) среднее значение признака.

Хорошо известно, например, что чем «неопределенней» прогноз погоды (т.е. шире доверительный интервал), тем вероятнее он будет верным.

Пример. Найти доверительный интервал с надежностью 0,95 для оценки математического ожидания нормально распределенной случайной величины, если известны ее среднее квадратическое отклонение
, выборочная средняя
и объем выборки
.

Воспользуемся формулой
. Значениенайдем по таблице значений функции Лапласа
, с учетом того, что
, т.е.
. Находим по таблице для значения функции
значение аргумента
. Получим доверительный интервал:

; или
.

Тестовые задания

1. Длина доверительного интервала уменьшается с увеличением:

1) выборочных значений 2) объема выборки

3) доверительной вероятности 4) выборочного среднего

2. Длина доверительного интервала с увеличением объема выборки:

1) уменьшается; 2) увеличивается;

3) не изменяется; 4) колеблется.

3. Длина доверительного интервала с увеличением доверительной вероятности:

1) изменяется, 2) уменьшается,

3) увеличивается, 4) постоянна.

4. Отметьте два правильных ответа. Символы ив формуле доверительного интервала означают:

1) оценка параметра; 2) доверительный интервал;

3) объем выборки; 4) доверительная вероятность.

Ответы. 1. 2). 2. 1 3. 2). 4. 4) и 3).

Контрольные Вопросы

    Что понимается под термином «интервальная оценка параметра распределения»?

    Дайте определение доверительного интервала.

    Что такое точность оценки и надежность оценки?

    Что называется доверительной вероятностью? Какие значения она принимает?

    Как изменится длина доверительного интервала, если увеличить: 1) объем выборки, 2) доверительную вероятность? Ответ обоснуйте.

    Запишите формулу для нахождения доверительного интервала математического ожидания нормально распределенной случайной величины, если генеральная дисперсия: 1) известна; 2) неизвестна.

Условие (1) означает, что в большой серии независимых экспери­ментов, в каждом из которых получена выборка объема п, в среднем (1 - а) 100% из общего числа построенных доверительных интервалов содержат истинное значение параметра 0.

Длина доверительного интервала, характеризующая точность интер­вального оценивания, зависит от объема выборки n и доверительной ве­роятности 1 - α: при увеличении объема выборки длина доверительного интервала уменьшается, а с приближением доверительной вероятности к единице - увеличивается. Выбор доверительной вероятности опреде­ляется конкретными условиями. Обычно используются значения 1 - α, равные 0,90; 0,95; 0,99.

При решении некоторых задач применяются односторонние довери­тельные интервалы, границы которых определяются из условий

Ρ [θ < θ 2 ] = 1 - α или Ρ [θ 1 < θ] = 1 - α.

Эти интервалы называются соответственно левосторонними и право­сторонними доверительными интервалами.

Чтобы найти доверительный интервал для параметра θ, необходимо знать закон распределения статистики θ ’ = θ ’ (x 1 , ..., х п ), значение ко­торой является оценкой параметра θ. При этом для получения довери­тельного интервала наименьшей длины при данном объеме выборки n и заданной доверительной вероятности 1 - α в качестве оценки θ пара­метра θ следует брать эффективную либо асимптотически эффективную оценку.

2.1.5. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ. КРИТЕРИЙ СОГЛАСИЯ ПИРСОНА.

Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Пусть по выборке объема n получено эмпирическое распределение:

С помощью критерия Пирсона можно проверить гипотезу о различных законах распределения генеральной совокупности (равномерном, нормальном, показательном и др.) Для этого в предположении о конкретном виде распределения вычисляются теоретические частоты n i ’ , и в качестве критерия выбирается случайная величина.

имеющая закон распределения χ2 с числом степеней свободы k = s – 1 – r, где s – число частичных интервалов выборки, r – число параметров предполагаемого распределения. Критическая область выбирается правосторонней, и граница ее при заданном уровне значимости α находится по таблице критических точек распределения χ2.

Теоретические частоты n i ’ вычисляются для заданного закона распределения

как количества элементов выборки, которые должны были попасть в каждый интервал, если бы случайная величина имела выбранный закон распределения, параметры которого совпадают с их точечными оценками по выборке, а именно:



а) для проверки гипотезы о нормальном законе распределения n i ’ = n · Р i , где

n – объем выборки, , x i и x i +1 левая и правая

границы i-го интервала, - выборочное среднее, s – исправленное среднее квадратическое отклонение. Поскольку нормальное распределение характеризуется двумя параметрами, число степеней свободы k = n – 3.

2.1.6. КВАНТИЛЬ

Квантиль - значение, которое заданная случайная величина не превышает с фиксированной вероятностью.

Квантилью уровня P, называется решение уравнения , где P и F заданы.

Квантиль P – значение случайной величины, при котором функция распределения равна P.

В Данной работе будут использованы квантили распределения Стьюдента и хи-квадрат Пирсона.


2.2 РАСЧЁТЫ

Данная выборка

объем выборки

2.3. ВЫВОДЫ

В ходе работы над первой частью курсовой работы был написан подробный

теоретический обзор. Также были решены данные задачи. Получен опыт нахождения статистического ряда, построения гистограммы и полигона частот. После проверки гипотезы было выяснено, что теоретическое меньше, чем практическое. Это означает, что нормальный закон распределения для данной совокупности не подходит.


3 ЧАСТЬ II. РЕГРЕССИОННЫЙ АНАЛИЗ

3.1. ТЕОРИТИЧЕСКИЕ СВЕДЕНЬЯ

Часто у инженера возникает задача выделения сигнала из смеси «сигнал + шум».

Например, на промежутке от t 1 до t 2 функция f(t) имеет вид, но в силу патологического влияния шумов и помех эта кривая превратилась в смесь f(t) + f(n).

Реально мы владеем какой-то информацией и о сигнале и о шуме, но этого недостаточно.

Алгоритм восстановления сигнала из смеси «сигнал + шум»:

1. Задается функция f(t)

2. Генерируется шум с помощью датчика случайных чисел f(n)

3. Построим сумму f(t) + f(n)

4. Принимая модель f(t) в виде полинома третьей степени – кубической параболы. Находим методом МНК коэффициенты этой кубической параболы. Они будут являться функциями y(t)

3.1.1 МЕТОД НАИМЕНЬШИХ КВАДРАТОВ (МНК)

Метод наименьших квадратов (МНК) – это метод оценки неизвестных случайных величин по результатам измерений, содержащим случайные ошибки. В нашем случае дана смесь – сигнал+шум. Наша задача состоит в извлечении истинного тренда.

При помощи метода наименьших квадратов вычисляются коэффициенты аппроксимирующего многочлена. Эта задача решается следующим образом.

Пусть на некотором отрезке в точках … нам известны значения … некоторой функции f(x).

Требуется определить параметры многочлена вида

Где k

такого, что сумма квадратов отклонений значений y от значений функции f(y) в заданных точках x была минимальной, то есть .

Геометрический смысл заключается в том, что график найденного многочлена y = f(x) будет проходить как можно ближе к каждой из заданных точек.

…………………………………………………………………………….

Запишем систему уравнений в матричном виде:

Решением является следующее выражение:

Несмещенная оценка для дисперсии ошибок наблюдений равна:

Чем величина S меньше, тем точнее описывается Y.

N – Объем выборки

k-Число параметров тренда –

Считается по формуле:

Доверительный интервал для коэффициентов тренда считается так:

– квантиль распределения Стьюдента

J-ый диагональный элемент матрицы


3.2 РАСЧЕТЫ

шаг



4. ЗАКЛЮЧЕНИЕ

В ходе выполнения данной курсовой работы был получен опыт нахождения

точечной оценки и доверительного интервала для таких величин, как математическое

ожидание и дисперсия, закреплены навыки построения гистограммы и полигона частот

для некоторой выборки значений.

Так же был освоен метод наименьших квадратов (МНК), как один из способов

в регрессионном анализе для извлечения истинного тренда из смеси сигнал + шум.

Полученные в ходе работы навыки можно использовать не только в учебной

деятельности, но и в повседневной жизни.


СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Симонов А.А. Выск Н.Д. Проверка статистических гипотез:

Методические указания и варианты курсовых заданий. Москва, 2005, 46 с.

2. Ю. И. Галанов. Математическая статистика: учебное пособие.

Издательство ТПУ. Москва, 2010, 66 с.

3. Вентцель Е.С. Теория вероятностей: Учебник для студ. вузов, 2005. – 576 с.

4. Э. А. Вуколов, А. В. Ефимов, В.Н. Земсков, А. С. Поспелов. Сборник задач по математике для ВТУЗОВ: Учебник для студентов вузов.

Москва, 2003, 433 с.

5. Чернова Н. И. Математическая статистика: Учеб. пособие / Новосиб. гос. ун-т. Новосибирск, 2007. 148 с.

Доверительный интервал. Доверительная вероятность.

ПРИМЕНЕНИЕ ТЕОРИИ ВЕРОЯТНОСТИ К СТАТИСТИКЕ.

Основные понятия.

Математическая статистика - это раздел математики, в котором изучаются методы обработки и анализа экспериментальных данных, полученных в результате наблюдений над массовыми случайными событиями, явлениями.

Наблюдения, проводимые над объектами, могут охватывать всех членов изучаемой совокупности без исключения и могут ограничиваться обследованиями лишь некоторой части членов данной совокупности. Первое наблюдение называется сплошным или полным, второе частичным или выборочным .

Естественно, что наиболее полную информацию дает сплошное наблюдение, однако к нему прибегают далеко не всегда. Во-первых, сплошное наблюдение очень трудоемко, а во-вторых, часто бывает практически невозможно или даже нецелесообразно. Поэтому в подавляющем большинстве случаев прибегают к выборочному исследованию.

Совокупность, из которой некоторым образом отбирается часть ее членов для совместного изучения, называется генеральной совокупностью , а отобранная тем или иным способом часть генеральной совокупности - выборочная совокупность или выборка .

Объем генеральной совокупности теоретически ничем неограничен , на практике же он всегда ограничен.

Объем выборки может быть большим или малым, но он не может быть меньше двух.

Отбор в выборку можно проводить случайным способом (по способу жеребьевки или лотереи). Либо планово, в зависимости от задачи и организации обследования. Для того, чтобы выборка была представительной, необходимо обращать внимание на размах варьирования признака и согласовывать с ним объем выборки.

2. Определение неизвестной функции распределения.

Итак, мы сделали выборку. Разобьем диапазон наблюдаемых значений на интервалы , , …. одинаковой длины . Для оценки необходимого числа интервалов можно использовать следующие формулы:

Далее пусть m i - число наблюдаемых значений , попавших в i -ый интервал. Разделив m i на общее число наблюдений n , получим частоту , соответствующую i -ому интервалу: , причем . Составим следующую таблицу:

Номер интервала Интервал m i
m 1
m 2
... ... ... ...
k m k

которая называется статистическим рядом . Эмпирической (или статистической ) функцией распределения случайной величины называется частота события, заключающегося в том, что величина в результате опыта примет значение, меньшее x :

На практике достаточно найти значения статистической функции распределения F * (x) в точках , которые являются границами интервалов статистического ряда:

(5.2)

Следует заметить, что при и при . Построив точки и соединив их плавной кривой, получим приближенный график эмпирической функции распределения (рис. 5.1). Используя закон больших чисел Бернулли, можно доказать, что при достаточно большом числе испытаний с вероятностью, близкой к единице, эмпирическая функция распределения отличается сколь угодно мало от неизвестной нам функции распределения случайной величины .

Часто вместо построения графика эмпирической функции распределения поступают следующим образом. На оси абсцисс откладывают интервалы , ,…. . На каждом интервале строят прямоугольник, площадь которого равна частоте , соответствующей данному интервалу. Высота h i этого прямоугольника равна , где - длинна каждого из интервалов. Ясно, что сумма площадей всех построенных прямоугольников равна единице.

Рассмотрим функцию , которая в интервале постоянна и равна . График этой функции называется гистограммой . Он представляет собой ступенчатую линию (рис. 5.2). С помощью закона больших чисел Бернулли можно доказать, что при малых и больших с практической достоверностью как угодно мало отличается от плотности распределения непрерывной случайной величины .

Таким образом на практике определяется вид неизвестной функции распределения случайной величины.

3. Определение неизвестных параметров распределения.

Таким образом мы получили гистограмму, которая дает наглядность. Наглядность представленных результатов позволяет сделать различные заключения, суждения об исследуемом объекте.

Однако на этом обычно не останавливаются, а идут дальше, анализируя данные на проверку определенных предположений относительно возможных механизмов изучаемых процессов или явлений.

Несмотря на то, что данных в каждом обследовании сравнительно немного, мы бы хотели, чтобы результаты анализа достаточно хорошо описывали бы все реально существующее или мыслимое множество (т.е. генеральную совокупность).

Для этого делают некоторые предположения о том, как вычисленные на основе экспериментальных данных (выборке) показатели соотносятся с параметрами генеральной совокупности.

Решение этой задачи составляет главную часть любого анализа экспериментальных данных и тесно связано с использованием ряда теоретических распределений, рассмотренных выше.

Широкое использование в статистических выводах нормального распределения имеет под собой как эмпирическое, так и теоретическое обоснование.

Во-первых, практика показывает, что во многих случаях нормальное распределение действительно является довольно точным представлением экспериментальных данных.

Во-вторых, теоретически показано, что средние значения интервалов гистограмм распределены по закону, близкому к нормальному.

Однако следует четко представлять, что нормальное распределение - это лишь чисто математический инструмент и совсем необязательно, чтобы реальные экспериментальные данные точно описывались нормальным распределением. Хотя во многих случаях, допуская небольшую ошибку, можно говорить, что данные распределены нормально.

Ряд показателей, такие как среднее, дисперсия и т.д., характеризуют выборку и называются статистиками. Такие же показатели, но относящиеся к генеральной совокупности в целом, называются параметрами. Таким образом, можно сказать, что статистики служат для оценки параметров.

Генеральной средней называется среднее арифметическое значений генеральной совокупности объема :

Выборочной средней называется среднее арифметическое выборки объема :

(5.4)

если выборка имеет вид таблицы.

Выборочную среднюю принимают в качестве оценки генеральной средней.

Генеральной дисперсией называется среднее арифметическое квадратов отклонения значений генеральной совокупности от их среднего значения :

Генеральным средним квадратическим отклонением называется корень квадратный из генеральной дисперсии: .

Выборочной дисперсией называется среднее арифметическое квадратов отклонения значений выборки от их среднего значения :

Выборочное среднее квадратическое отклонение определяется как .

Для лучшего совпадения с результатами экспериментов, вводят понятие эмпирической (или исправленной) дисперсии :

Для оценки генерального среднего квадратического отклонения служит исправленное среднее квадратическое отклонение, или эмпирический стандарт :

(5.5)

В случае, когда все значения выборки различны, т.е. , , формулы для и принимают вид:

(5.6)

Доверительный интервал. Доверительная вероятность.

Различные статистики, получаемые результате вычислений, представляют собой точечные оценки соответствующих параметров генеральной совокупности.

Если из генеральной совокупности извлечь некоторое количество выборок и для каждой из них найти интересующие нас статистики, то вычисленные значения будут представлять собой случайные величины, имеющие некоторый разброс вокруг оцениваемого параметра.

Но, как правило, в результате эксперимента в распоряжении исследователя имеется одна выборка. Поэтому значительный интерес представляет получение интервальной оценки, т.е. некоторого интервала, внутри которого, как можно предположить, лежит истинное значение параметра.

Вероятности, признанные достаточными для уверенных суждениях о параметрах генеральной совокупности на основании статистик, называются доверительными.

Для примера рассмотрим как оценку параметра .

После получения точечной оценки желательно иметь данные о надежности такой оценки. Понятно, что величина является лишь приближенным значением параметра q. Вычисленная точечная оценка может быть близка к оцениваемому параметру, а может и очень сильно отличаться от него. Точечная оценка не несет информации о точности процедуры оценивания. Особенно важно иметь сведения о надежности оценок для небольших выборок. В таких случаях следует пользоваться интервальными оценками.

Задачу интервального оценивания в самом общем виде можно сформулировать следующим образом: по данным выборки построить числовой интервал, относительно которого с заранее выбранной вероятностью можно сказать, что внутри этого интервала находится оцениваемый параметр. Здесь существует несколько подходов. Наиболее распространенным методом интервального оценивания является метод доверительных интервалов .

Доверительным интервалом для параметра q называется интервал , содержащий неизвестное значение параметра генеральной совокупности с заданной вероятностью g, т.е.

.

Число g называется доверительной вероятностью , а число a=1–g – уровнем надежности . Доверительная вероятность задается априорно и определяется конкретными условиями. Обычно используется g=0,9; 0,95; 0,99 (соответственно, a=0,1; 0,05; 0,01).

Длина доверительного интервала, характеризующая точность интервальной оценки, зависит от объема выборки n и доверительной вероятности g. При увеличении величины n длина доверительного интервала уменьшается, а с приближением вероятности g к единице – увеличивается.

Часто доверительный интервал строят симметричным относительно точечной оценки, т.е. в виде

, (3.15)

Здесь число D называется предельной (или стандартной ) ошибкой выборки . Однако симметричные интервалы не всегда удается построить, более того, иногда приходится ограничиваться односторонними доверительными интервалами:

или .

Поскольку в эконометрических задачах часто приходится строить доверительные интервалы параметров случайных величин, имеющих нормальное распределение , приведем схемы их нахождения.



3.4.2. Доверительный интервал оценки генеральной
средней при известной генеральной дисперсии

Пусть количественный признак X генеральной совокупности имеет нормальное распределение с заданной дисперсией s 2 и неизвестным математическим ожиданием a . Для оценки параметра a извлечена выборка X 1 , X 2 , …, X n , состоящей из n независимых нормальной распределенных случайных величин с параметрами a и s, причем s известно, а величину a оценивают по выборке:

.

Оценим точность этого приближенного равенства. Для этого зададим вероятность g и попробуем найти такое число D, чтобы выполнялось соотношение

.

Далее воспользуемся свойствами нормального распределения. Известно, что сумма нормально распределенных величин также имеет нормальное распределение. Поэтому средняя величина имеет нормальное распределение, математическое ожидание и дисперсия которой равны

Следовательно,

.

Воспользуемся теперь формулой нахождения вероятностей отклонения нормально распределенной случайной величины от математического ожидания:

,

где F(x ) – функция Лапласа. Заменяя X на и s на , получим

,

где . Из последнее равенства находим, что предельная ошибка выборки будет равна

.

Приняв во внимание, что доверительная вероятность задана и равна g, получим окончательный результат.

Интервальная оценка генеральной средней (математического ожидания) имеет вид

, (3.17)

или более кратко

где число t g определяется из равенства .

Приведем значения t g для широко распространенных значений доверительной вероятности:

, , .

Обсудим, как влияет на точность оценивания параметра a объем выборки n , величина среднего квадратичного отклонения s, а также значение доверительной вероятности g.

а) При увеличении n точность оценки увеличивается. К сожалению, увеличение точности (т.е. уменьшение длины доверительного интервала) пропорционально , а не 1/n , т.е. происходит гораздо медленнее, чем рост числа наблюдений. Например, если мы хотим увеличить точность выводов в 10 раз чисто статистическими средствами, то мы должны увеличить объем выборки в 100 раз.

б) Чем больше s, тем ниже точность. Зависимость точности от этого параметра носит линейный характер.

в) Чем выше доверительная вероятность g, тем больше значение параметра t g , т.е. тем ниже точность. При этом между g и t g существует нелинейная связь. С увеличением g значение t g резко увеличивается ( при ). Поэтому с большой уверенностью (с высокой доверительной вероятностью) мы можем гарантировать лишь относительно невысокую точность. (Доверительный интервал окажется широким.) И наоборот: когда мы указываем для неизвестного параметра a относительно узкие пределы, мы рискуем совершить ошибку – с относительно высокой вероятностью.

Отметим, что величина

называется средней ошибкой выборки . Для бесповторной выборки эта формула примет вид

. (3.20)

Тогда предельная ошибка выборки D будет представлять собой t -кратную среднюю ошибку:

Пример 3.7. На основе продолжительных наблюдений за весом X пакетов орешков, заполняемых автоматически, установлено, что среднее квадратичное отклонение веса пакетов равно s=10 г . Взвешено 25 пакетов, при этом их средний вес составил . В каком интервале с надежностью 95% лежит истинное значение среднего веса пакетов?

.

Для определения 95%-го доверительного интервала вычислим предельную ошибку выборки

Следовательно 95%-й доверительный интервал для истинное значение среднего веса пакетов будет иметь вид

,

На первый взгляд может показаться, что полученный результат представляет только теоретический результат, поскольку среднее квадратичное отклонение s, как правило, тоже неизвестно и вычисляется по выборочным данным. Однако если выборка достаточно большая, то полученный результат вполне приемлем для практического использования, поскольку функция распределения будет мало отличаться от нормальной, а оценка дисперсии s 2 будет достаточно близка к истинному значению s 2 . Более того, полученный результат часто используют и в том случае, когда распределение генеральной совокупности отличается нормального. Это обусловлено тем, что сумма независимых случайных величин, в силу центральной предельной теоремы, при больших выборках имеет распределение, близкое к нормальному. â

Пример 3.8. Предположим, что в результате выборочного обследования жилищных условий жителей города на основе собственно-случайной повторной выборки, получен следующий вариационный ряд:

Таблица 3.5

Построить 95%-доверительный интервал для изучаемого признака.

Решение. Рассчитаем выборочную среднюю величину и дисперсию изучаемого признака.

Таблица 3.6

Общая площадь жилищ, приходящаяся на 1 чел., м 2 Число жителей, n i Середина интервала, x i
До 5,0 2,5 20,0 50,0
5,0–10,0 7,5 712,5 5343,8
10,0–15,0 12,5 2550,0 31875,0
15,0–20,0 17,5 4725,0 82687,5
20,0–25,0 22,5 4725,0 106312,5
25,0–30,0 27,5 3575,0 98312,5
30,0 и более 32,5 2697,5 87668,8
Итого 19005,0 412250,0

; ; .

Средняя ошибка выборки составит

.

Определим предельную ошибку выборки с вероятностью 0,95 ():

Установим границы генеральной средней

.

Таким образом, на основании проведенного выборочного обследования с вероятностью 0,95 можно заключить, что средний размер общей площади, приходящейся на 1 чел., в целом по городу лежит в пределах от 18,6 до 19,4 м 2 . â

3.4.3. Доверительный интервал оценки генеральной
средней при неизвестной генеральной дисперсии

Выше была решена задача построения интервальной оценки для математического ожидания нормального распределения, когда его дисперсия известна. Однако на практике дисперсия обычно тоже неизвестна и ее вычисляют по той же самой выборке, что и математическое ожидание. Это приводит к необходимости использования другой формулы при определении доверительного интервала для математического ожидания случайной величины, имеющей нормальное распределение. Такая постановка задачи особенно актуальна при малых объемах выборки.

Пусть количественный признак X генеральной совокупности имеет нормальное распределение N (a ,s), причем оба параметра a и s неизвестны. По данным выборки X 1 , X 2 , …, X n , вычислим среднее арифметическое и исправленную дисперсию:

, .

Для нахождения доверительного интервала в этом случае строится статистика

имеющая распределение Стьюдента с числом степеней свободы n=n–1 независимо от значений параметров a и s. Выбрав доверительную вероятность g и зная объем выборки n, можно найти такое число t, что будет выполняться равенство

,

.

Отсюда находим

интервальную оценку для генеральной средней (математического ожидания) при неизвестном s:

, (3.22)

или более кратко

Число t (коэффициент Стьюдента ) находится из таблиц для распределения Стьюдента. Отметим, что он является функцией двух аргументов: доверительной вероятности g и числа степеней свободы k =n –1, т.е. t=t (g,n).

Следует быть очень внимательным при использовании таблиц для распределения Стьюдента. Во-первых, обычно в таблицах вместо доверительной вероятности g используют уровень надежности a=1–g. Во-вторых, очень часто в таблицах приводятся значения т.н. одностороннего критерия Стьюдента

Или .

В этом случае в таблицах следует брать значения , если в таблице используется уровень надежности, или , если в таблице используется доверительная вероятность.

Несмотря на кажущееся сходство формул (3.17) и (3.22), между ними имеется существенное различие, заключающееся в том, что коэффициент Стьюдента t зависит не только от доверительной вероятности, но и от объема выборки. Особенно это различие заметно при малых выборках. (Напомним, что при больших выборках различие между распределением Стьюдента и нормальным распределением практически исчезает.) В этом случае использование нормального распределения приводит к неоправданному сужению доверительного интервала, т.е. к неоправданному повышению точности. Например, если n =5 и g=0,99, то, пользуясь распределением Стьюдента, получим t =4,6, а используя нормальное распределение, – t =2,58, т.е. доверительный интервал в последнем случае почти в два раза уже, чем интервал при использовании распределения Стьюдента.

Пример 3.9. Аналитик фондового рынка оценивает среднюю доходность определенных акций. Случайная выборка 15 дней показала, что средняя (годовая) доходность со средним квадратичным отклонением . Предполагая, что доходность акций подчиняется нормальному закону распределения, постройте 95%-доверительный интервал для средней доходности интересующего аналитика вида акций.

Решение. Поскольку объем выборки n =15, то необходимо применить распределение Стьюдента с степенями свободы. По таблицам для распределения Стьюдента находим

.

Используя это значение, строим 95%-доверительный интервал:

.

Следовательно, аналитик может быть на 95% уверен, что средняя годовая доходность по акциям находится между 8,44% и 12,3%. â

1. Введение

2. Основная часть

2.1.1Понятие о доверительных интервалах

2.1.2 Доверительный интервал для математического ожидания нормальной случайной величины при известной дисперсии

2.1.3 Доверительный интервал для математического ожидания нормальной случайной величины при неизвестной дисперсии

2.1.4 Доверительный интервал для дисперсии нормальной случайной величины

2.2 Генеральная совокупность

2.2.1 Построение доверительного интервала для генеральной средней по малой выборке

2.2.2 Построение доверительного интервала для генеральной доли по малой выборке

2.2.3 Построение доверительного интервала для генеральной дисперсии

3. Заключение

Список литературы

1. В ве д е ние

На практике мы всегда имеем дело с ограниченным числом измерений, и задача, которая всегда стоит перед оператором, состоит в том, как оценить точность измерений, т.е. найти его меру приближения к истинному значению на основании группы результатов наблюдения.

В результате отдельных измерений мы получаем некоторые строго фиксированные результаты (точки) измеряемой величины. Их значения являются случайными с некоторым распределением. Случайная погрешность измерения образуется под влиянием большого числа факторов, сопутствующих процессу измерения. Важно зафиксировать отклонения и, при использовании полученных результатов, использовать подход, который будет учитывать такие флуктуации. Подходящим решением является введение понятий доверительного интервала и доверительной вероятности.

2. Основная часть

2.1. 1 Понятие о доверительных интервалах .

После получения точечной оценки и * желательно иметь данные о надежности такой оценки. Особенно важно иметь сведения о точности оценок для небольших выборок (поскольку с возрастанием объема п выборки несмещенность и состоятельность основных оценок гарантируется утверждениями математической статистики). Поэтому точечная оценка может быть дополнена интервальной оценкой -- интервалом (и 1 , и 2), внутри которого с наперед заданной вероятностью г находится точное значение оцениваемого параметра и. Задачу определения такого интервала называют интервальным оцениванием, а сам интервал -- доверительным интервалом. При этом г называют доверительной вероятностью или надежностью, с которой оцениваемый параметр и попадает в интервал (и 1, и 2).

Зачастую для определения доверительного интервала заранее выбирают число б = 1 -- г, 0< б < 1, называемое уровнем значимости, и находят два числа и 1 и и 2 , зависящих от точечной оценки и * , такие, что

Р (и 1 < и < и 2) = 1- б = г. (1)

В этом случае говорят, что интервал (и 1, и 2) накрывает неизвестный параметр и с вероятностью (1 - б), или в 100(1 - б)% случаев. Границы интервала и 1 и и 2 называются доверительными, и они обычно находятся из условия Р (и < и 1) = Р(и > и 2) = б/2 (рис. 1) .

Рисунок 1 - Распределение параметра и

Длина доверительного интервала, характеризующая точность интервальной оценки, зависит от объема выборки п и надежности г (уровня значимости г= 1 - б). При увеличении величины п длина доверительного интервала уменьшается, а с приближением надежности г к единице -- увеличивается. Выбор б (или г = 1 - б) определяется конкретными условиями. Обычно используется б=0,1; 0,05; 0,01, что соответствует 90, 95, 99%-м доверительным интервалам.

Общая схема построения доверительного интервала:

1. Из генеральной совокупности с известным распределением f (x , и) случайной величины X извлекается выборка объема п, по которой находится точечная оценка и * параметра и.

2. Строится случайная величина Y(и), связанная с параметром и и имеющая известную плотность вероятности f (у, и).

3. Задается уровень значимости б.

4. Используя плотность вероятности случайной величины Y, определяют два числа с 1 и с 2 такие, что

Значения с 1 и с 2 выбираются как правило, из условий

Неравенство с 1 < Y (и) < с 2 преобразуется в равносильное и*- д < и < и + д такое, что Р (и*- д < и < и*+ д) = 1 - б .

Полученный интервал (и *- д < и < и *+ д), накрывающий неизвестный параметр и с вероятностью 1 - б, и является интервальной оценкой параметра и.

Интервальная оценка также носит случайный характер, так как она напрямую связана с результатами выборки. Однако она позволяет сделать следующий вывод. Если построен доверительный интервал, который с надежностью г = 1 - б накрывает неизвестный параметр, и его границы рассчитываются по К выборкам одинакового объема п, то в (1- б)К случаях построенные интервалы накроют истинное значение исследуемого параметра.

Поскольку в эконометрических задачах часто приходится находить доверительные интервалы параметров случайных величин, имеющих нормальное распределение, приведем схемы их определения.

2. 1. 2

нормальной случайной величины при известной дисперсии .

Пусть количественный признак X генеральной совокупности имеет нормальное распределение с заданной дисперсией у 2 и неизвестным математическим ожиданием M(Х~N(т , у)). Построим доверительный интервал для т.

1. Пусть для оценки т извлечена выборка х 1 , х 2 , ..., х п объема n . Тогда

2. Составим случайную величину. Нетрудно показать, что случайная величина u имеет стандартизированное нормальное распределение, т.е. u ~ N (0, 1) ().

3. Зададим уровень значимости б.

4. Применяя формулу нахождения вероятности отклонения нормальной величины от математического ожидания, имеем:

Это означает, что доверительный интервал накрывает неизвестный параметр т с надежностью 1- б. Точность оценки определяется величиной .

Отметим, что число определяется по таблице значений функции Лапласа из равенства (рис.2) .

Рисунок 2 - Стандартизированное нормальное распределение случайной величины

Пример 1 . На основе продолжительных наблюдений за весом X пакетов орешков, заполняемых автоматически, установлено, что стандартное отклонение веса пакетов у = 10 г. Взвешено 25 пакетов, при этом их средний вес составил = 244 г. В каком интервале с надежностью 95 % лежит истинное значение среднего веса пакетов?

Логично считать, что случайная величина X имеет нормальный закон распределения: Х~N(m , 10). Для определения 95%-го доверительного интервала найдем критическую точку = u 0,025 из приложения 1 по соотношению

Тогда по формуле (3) построим доверительный интервал:

2.1.3 Доверительный интервал для математического ожидания

нормальной случайной величины при неизвестной дисперсии .

В реальности истинное значение дисперсии исследуемой случайной величины, скорее всего, известно не будет. Это приводит к необходимости использования другой формулы при определении доверительного интервала для математического ожидания случайной величины, имеющей нормальное распределение.

Пусть X ~ N(m , у 2), причем т и у 2 -- неизвестны. Необходимо построить доверительный интервал, накрывающий с надежностью г = 1 - б истинное значение параметра т.

Для этого из генеральной совокупности случайной величины X извлекается выборка объема п: х 1 , х 2 , ..., х п .

1. В качестве точечной оценки математического ожидания т используется выборочное среднее, а в качестве оценки, дисперсии у 2 -- исправленная выборочная дисперсия , которой соответствует стандартное отклонение.

2. Для нахождения доверительного интервала строится статистика , имеющая в этом случае распределение Стьюдента с числом степеней свободы v = п - 1 независимо от значений параметров т и у 2 .

4. Применяется следующая формула расчета вероятности

где -- критическая точка распределения Стьюдента, которая находится по соответствующей таблице . Тогда

Это означает, что интервал накрывает неизвестный параметр m с надежностью 1 - б.

Пример 2 . Найти доверительный интервал для оценки неизвестного математического ожидания нормально распределенного признака, если известны:у = 2; = 5,4; n = 10; г = 0,95.

Решение.

2Ф(t) = 0,95, Ф(t) = 0,5*0,95=0,475.

Найдя t = 1,96, получим.

Доверительный интервал

(- д; + д) = (5,4- 1,24; 5,4+1,24)=(4,16; 6,64).

Пример 3 . Найти минимальный объем выборки, при котором с надежностью 0,95 точность оценки математического ожидания нормально распределенного признака по выборочной средней будет равна 0,2, если среднее квадратическое отклонение равно2.

Решение.

Дано: г = 0,95; д = 0,2; у = 2. Найти n.

Из формулы находим. Из условия2Ф(t) = 0,95 находим t = 1,96. Тогда.

Пример 4 . По заданным значениям характеристик нормально распределенного признака найти доверительный интервал для оценки неизвестного математического ожидания:

г = 0,95, n =12, S = 1,5. = 16,8.

Решение.

По даннымг и n находим t = 2,20, тогда.

Доверительный интервал: (16,8 - 0,95; 16,8 + 0,95) = (15,85; 17,75).

2.1.4 Доверительный интервал для дисперсии нормальной

случайной величины .

Пусть X ~ N(т, у 2), причем т и у 2 -- неизвестны. Пусть для оценки у 2 извлечена выборка объема п: : х 1 , х 2 , ..., х п .

1. В качестве точечной оценки дисперсии D (X ) используется исправленная выборочная дисперсия которой соответствует стандартное отклонение.

2. При нахождении доверительного интервала для дисперсии в этом случае вводится статистика, имеющая -распределение с числом степеней свободы v = п - 1 независимо от значения параметра у 2 .

3. Задается требуемый уровень значимости б.

4. Тогда, используя таблицу критических точек распределения, нетрудно указать критические точки, для которых будет выполняться следующее равенство:

Подставив вместо соответствующее значение, получим

Неравенство может быть преобразовано в следующее:

Таким образом, доверительный интервал () накрывает неизвестный параметр с надежностью 1- б . А доверительный интервал () с надежностью 1 - б накрывает неизвестный параметр .

2.2 Генеральная совокупность .

Генеральной совокупностью называется множество всех возможных значений или реализаций исследуемой случайной величины при данном реальном комплексе условий.

Выборкой называют часть генеральной совокупности, отобранную для изучения.

Изучение всей генеральной совокупности во многих случаях либо невозможно, либо нецелесообразно в силу больших материальных затрат, поэтому на практике часто приходится иметь дело с выборками небольшого объема п <10- 20. В этом случае используемый обычно метод построения интервальной оценки для генеральной средней (среднего арифметического генеральной совокупности) и генеральной доли (доли элементов, обладающих необходимым признаком) неприменим в силу двух обстоятельств:

1) необоснованным становится вывод о нормальном законе распределения выборочных средней и доли w , так как он основан на центральной предельной теореме при больших п;

2) необоснованной становится замена неизвестных генеральной дисперсии у 2 и доли р их точечными оценками (или) или w , так как в силу закона больших чисел (состоятельности оценок) эта замена возможна лишь при больших п .

2.2.1

средней по малой выборке.

Задача построения доверительного интервала для генеральной средней может быть решена, если в генеральной совокупности рассматриваемый признак имеет нормальное распределение.

Теорема. Если признак (случайная величина) X имеет нормальный закон распределения с параметрами, x 2 = 2 , т.е. , то выборочная средняя при любом n имеет нормальный закон распределения

Если в случае больших выборок из любых генеральных совокупностей нормальность распределения обусловливалась суммированием большого числа одинаково распределенных случайных величин / n (теорема Ляпунова), то в случае малых выборок, полученных из нормальной генеральной совокупности, нормальность распределения вытекает из того, что распределение суммы (композиция) любого числа нормально распределенных случайных величин имеет нормальное распределение. Формулы числовых характеристик для получены ранее.

Таким образом, если бы была известна генеральная дисперсия, то доверительный интервал можно было бы построить аналогично изложенному выше и при малых n . Заметим, что в этом случае нормированное отклонение выборочной средней имеет стандартное нормальное распределение N(0; 1), т.е. нормальное распределение с математическим ожиданием, равным нулю, и дисперсией, равной единице.

Действительно, используя свойства математического ожидания и дисперсии, получим, что

Однако на практике почти всегда генеральная дисперсия (как и оцениваемая генеральная средняя) неизвестна. Если заменить ее «наилучшей» оценкой по выборке, а именно «исправленной» выборочной дисперсией, то большой интерес представляет распределение выборочной характеристики (статистики) или с учетом малой выборки, распределение статистики.

Представим статистику t в виде:

Числитель выражения (8) имеет стандартное нормальное распределение N (0; 1). Можно показать, что случайная величина имеет - распределение с н = n - 1 степенями свободы. Следовательно, статистика t имеет t- распределение Стьюдента с н =п - 1 степенями свободы. Указанное распределение не зависит от неизвестных параметров распределения случайной величины X, а зависит лишь от числа н, называемого числом степеней свободы.

Выше отмечено, что t - распределение Стьюдента напоминает нормальное распределение, и действительно при н >? как угодно близко приближается к нему.

Число степеней свободы к определяется как общее число n наблюдений (вариантов) случайной величины X минус число уравнений l, связывающих эти наблюдения, т.е. н = п - l.

Так, например, для распределения статистики число степеней свободы н = п - 1, ибо одна степень свободы «теряется» при определении выборочной средней (и наблюдений связаны одним уравнением).

3ная t - распределение Стьюдента, можно найти такое критическое значение что вероятность того, что статистика не превзойдет величину (по абсолютной величине), равна:

Функция, где - плотность вероятности t - распределения Стьюдента при числе степеней свободы н табулирована. Эта функция аналогична функции Лапласа Ф(t ), но в отличие от нее является функцией двух переменных -- t и н = п - 1. При н >? функция неограниченно приближается к функции Лапласа Ф(t) .

Формула доверительной вероятности для малой выборки может быть представлена в равносильном виде:

- предельная ошибка малой выборки. Доверительный интервал для генеральной средней, как и ранее, находится по формуле:

Пример 5 . Для контроля срока службы электроламп из большой партии было отобрано 17 электроламп. В результате испытаний оказалось, что средний срок службы отобранных ламп равен 980 ч, а среднее квадратическое отклонение их срока службы -- 18 ч. Необходимо определить: а) вероятность того, что средний срок службы ламп во всей партии отличается от среднего срока службы отобранных для испытаний ламп не более чем на 8 ч (по абсолютной величине); б) границы, в которых с вероятностью 0,95 заключен средний срок службы ламп во всей партии.

Решение.

Имеем по условию п = 20, = 980(ч), S = 18 ч.

а) Зная предельную ошибку малой выборки = 8 (ч), найдем из соотношения (9):

Теперь искомая доверительная вероятность

А находится по таблице значений при числе степеней свободы = 16.

Итак, вероятность того, что расхождение средних сроков службы электроламп в выборке и во всей партии не превысит 8 ч (по абсолютной величине), равна 0,906.

б) Учитывая, что = 0,95 и t 0,95;16 =2,12, по (11)найдем предельную ошибку малой выборки (ч). Теперь по (12)искомый доверительный интервал или (ч), т.е. с надежностью 0,95 средний срок службы электроламп в партии заключен от 970,5 до 989,5 ч.

2.2.2 Построение доверительного интервала для генеральной доли

по малой выборке.

Если доля признака в генеральной совокупности равна р то вероятность того, что в повторной выборке объема п т элементов обладают этим признаком, определяется по формуле Бернулли: , где q = 1 - р , т.е. распределение повторной выборки описывается биномиальным распределением. Так как при р? 0,5 биномиальное распределение несимметрично, то в качестве доверительного интервала для р берут такой интервал (p 1 , p 2 ), что вероятность попадания левее р 1 и правее p 2 одна и та же и равна (1 - г)/2:

где - фактическое число элементов выборки, обладающих признаком.

Рисунок 3 - Генеральная доля для г=0,9

Решение таких уравнений можно упростить, если использовать специальные графики, позволяющие при данном объеме выборки п и заданной доверительной вероятности г определить границы доверительного интервала для генеральной доли р. В качестве примера на рисунке 3 приведены такие графики для г = 0,9.

Пример 6 . Опрос случайно отобранных 15 жителей города показал, что 6 из них будут поддерживать действующего мэра на предстоящих выборах. Найти границы, в которых с надежностью 0,9 заключена доля граждан города, которые будут поддерживать на предстоящих выборах действующего мэра.

Решение.

Выборочная доля жителей, поддерживающих мэра, w = т/п = 6/15 = 0,4 . По рисунку 3 для г = 0,9 находим при w = 0,4 и для п = 15 по нижнему графику p 1 =0,23, а по верхнему -- р 2 = 0,60, т.е. доля жителей города, поддерживающих мэра, с надежностью 0,9 заключена в границах от 0,23 до 0,60. Очевидно, что более точный ответ на вопрос задачи может быть получен при увеличении объема выборки п.

2.2.3 Построение доверительного интервала для генеральной

дисперсии.

Пусть распределение признака (случайной величины) X в генеральной совокупности является нормальным N (, 2). Предположим, что математическое ожидание М(Х) = (генеральная средняя) известно. Тогда выборочная дисперсия повторной выборки X 1 , X 2 , …, X n :

ее неследует путать с выборочной дисперсией

и «исправленной» выборочной дисперсией

если S характеризует вариацию значений признака относительно генеральной средней, то и -- относительно выборочной средней .

Рассмотрим статистику

Учитывая, M (X i ) = , D (X i )= у 2 , (i = 1, 2, …, n ) нетрудно показать, что М (t ) = 0 и.

Выше отмечено, что распределение суммы квадратов п независимых случайных величин, каждая из которых имеет стандартное нормальное распределение N (0;l), представляет распределение 2 с н = п степенями свободы.

Таким образом, статистика имеет распределение 2 с н = п степенями свободы.

Распределение 2 не зависит от неизвестных параметров случайной величины X , а зависит лишь от числа степеней свободы н .

Плотность вероятности распределения имеет сложный вид и интегрирование ее является весьма трудоемким процессом. Составлены таблицы для вычисления вероятности того, что случайная величина, имеющая 2 - распределение с н степенями свободы, превысит некоторое критическое значение, т.е.

В практике выборочного наблюдения математическое ожидание, как правило, неизвестно, и приходится иметь дело не с, а с S 2 или. Если Х 1 , X 2 ,..., X n -- повторная выборка из нормально распределенной генеральной совокупности, то, как уже сказано выше, случайная величина (или) имеет распределение 2 с н = п --1 степенями свободы. Поэтому для заданной доверительной вероятности г можно записать:

(графически это площадьпод кривой распределения и рис. 4).

Рисунок 4 - Кривая распределения 2

Очевидно, что значения и определяются неоднозначно при одном и том же значении заштрихованной площади. Обычно и выбирают таким образом, чтобы вероятности событий < и > были одинаковы, т. е.

Преобразовавдвойное неравенство в равенстве (13)к равносильному виду, получим формулу доверительной вероятности для генеральной дисперсии:

а для среднеквадратического отклонения:

. (15)

При использовании таблиц вероятностей необходимо учесть, что поэтому условие

равносильно условию.

Таким образом, значения и находим из равенств:

Пример 7. На основании выборочных наблюдений производительности труда 20 работниц было установлено, что среднее квадратическое отклонение суточной выработки составляет 15 м ткани в час. Предполагая, что производительность труда работницы имеет нормальное распределение, найти границы, в которых с надежностью 0,9 заключены генеральные дисперсия и среднее квадратическое отклонение суточной выработки работниц.

Решение.

Имеем г = 0,9; (1 - г)/2 = 0,05; (1 +г)/2 = 0,95.

При числе степеней свободы н = n - 1=20 - 1=19 в соответствии с (16)и (17)определим и для вероятностей 0,95 и 0,05, т.е. = 10,1 и = 30,1. Тогда доверительный интервал для у 2 по (14)можно записать в виде:

или и для у по (15):

или 12,2 < у <21,1(м/ч).

Итак, с надежностью 0,9 дисперсия суточной выработки работниц заключена в границах от 149,5 до 445,6, а ее среднее квадратическое отклонение -- от 12,2 до 21,1 метров ткани в час.

Таблицы составлены при числе степеней свободы н от 1 до 30. При н > 30 можно считать, что случайная величина имеет стандартное нормальное распределение N (0; l). Поэтому для определения и следует записать, что

откуда и, после преобразований,

Таким образом, при расчете доверительного интервала надо полагать, .

Пример 8 . Решить задачу, приведенную в примере 7, при п = 100 работницам.

Решение.

При Ф(t ) = 0,9 t = 1,645, поэтому

3. Заключение

В данной курсовой работе рассмотрено понятие доверительного интервала и его разновидности в метрологии.

Провести бесконечное число измерений для получения верного результата в реальной жизни невозможно, поэтому важно дать объективное представление результатов ограниченного числа измерений, чему и призван помочь изучаемый подход.

Цель любого оценивания состоит в получении наиболее точного значения исследуемой характеристики. Доверительный интервал позволяет с определенной точностью получить распределение параметра, что дает хорошее представление об исследуемом объекте.

Список литературы

1. Беляев Ю.К., Носко В.П. Основные понятия и задачи математической статистики. - М.: Изд- во МГУ, ЧеРо, 1998. С. 114

2. Бородич С.А. Вводный курс эконометрики: Учебное пособие. - Мн.: БГУ, 2000. С. 46-48, 60-70

3. Крамер Г. Математические методы статистики.- М.: Госиноиздат, 1948. С. 118-130

4. Крамер Н.Ш. Теория вероятностей и математическая статистика: Учебник для вузов. - М.: ЮНИТИ- ДАНА, 2002. С. 140-144

5. Мешалкин Л.Д. Сборник задач по теории вероятностей. - М.: Изд- во МГУ, 1963. С. 30-33

6. Тутубалин В.Н. Теория вероятностей и случайных процессов. Основы математического аппарата и прикладные аспекты. - М.: Изд- во МГУ, 1992.

7. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. - М.: Инфра- М Финансы и статистика, 1995.