Уравнение парной регрессии .

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Линейное уравнение регрессии имеет вид y = bx + a + ε

Система нормальных уравнений.

a n + b∑x = ∑y

a∑x + b∑x 2 = ∑y x

Для наших данных система уравнений имеет вид

12a + 1042 b = 1709

1042 a + 91556 b = 149367

Из первого уравнения выражаем а и подставим во второе уравнение:

Получаем эмпирические коэффициенты регрессии: b = 0.9, a = 64.21

Уравнение регрессии (эмпирическое уравнение регрессии):

y = 0.9 x + 64.21

Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов β i , а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.

Для расчета параметров линейной регрессии построим расчетную таблицу (табл. 1)

1. Параметры уравнения регрессии.

Выборочные средние.

Выборочные дисперсии:

Среднеквадратическое отклонение

1.1. Коэффициент корреляции

Ковариация .

Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = 0.9 x + 64.21

1.3. Коэффициент эластичности .

Коэффициент эластичности находится по формуле:

1.4. Ошибка аппроксимации .

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.

1.5. Эмпирическое корреляционное отношение.

Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах .

Индекс корреляции .

Для линейной регрессии индекс корреляции равен коэфииценту корреляции r xy = 0.79.

Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции :

1.6. Коэффициент детерминации.

Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.

R 2 = 0.79 2 = 0.62

Для оценки качества параметров линейной регрессии построим расчетную таблицу (табл. 2)

2. Оценка параметров уравнения регрессии.

2.1. Значимость коэффициента корреляции .

Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H 1 ≠ 0, надо вычислить наблюдаемое значение критерия

и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку t крит двусторонней критической области. Если t набл < t крит оснований отвергнуть нулевую гипотезу. Если |t набл | > t крит - нулевую гипотезу отвергают.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=10 находим t крит:

где m = 1 - количество объясняющих переменных.

2.2. Интервальная оценка для коэффициента корреляции (доверительный интервал).

2.3. Анализ точности определения оценок коэффициентов регрессии.

Несмещенной оценкой дисперсии возмущений является величина:

S 2 y = 53.63 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

S y = 7.32 - стандартная ошибка оценки (стандартная ошибка регрессии).

S a - стандартное отклонение случайной величины a.

S b - стандартное отклонение случайной величины b.

2.4. Доверительные интервалы для зависимой переменной.

(a + bx p ± ε)

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 107

Индивидуальные доверительные интервалы для Y при данном значении X.

(a + bx i ± ε)

t крит (n-m-1;α/2) = (10;0.025) = 2.228

2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.

1) t-статистика. Критерий Стьюдента.

t крит (n-m-1;α/2) = (10;0.025) = 2.228

Доверительный интервал для коэффициентов уравнения регрессии .

(b - t крит S b ; b + t крит S b)

(a - t крит S a ; a + t крит S a)

2) F-статистика. Критерий Фишера.

Табличное значение критерия со степенями свободы k 1 =1 и k 2 =10, F табл = 4.96

Парная линейная регрессия

ПРАКТИКУМ

Парная линейная регрессия: Практикум. –

Изучение эконометрики предполагает приобретение студентами опыта построения эконометрических моделей, принятия решений о спецификации и идентификации модели, выбора метода оценки параметров модели, оценки ее качества, интерпретации результатов, получения прогнозных оценок и пр. Практикум поможет студентам приобрести практические навыки в этих вопросах.

Утверждено редакционно-издательским советом

Составитель: М.Б. Перова, д.э.н., профессор

Общие положения

Эконометрическое исследование начинается с теории, устанавливающей связь между явлениями. Из всего круга факторов, влияющих на результативный признак, выделяются наиболее существенные факторы. После того, как было выявлено наличие взаимосвязи между изучаемыми признаками, определяется точный вид этой зависимости с помощью регрессионного анализа.

Регрессионный анализ заключается в определении аналитического выражения (в определении функции), в котором изменение одной величины (результативного признака) обусловлено влиянием независимой величины (факторного признака). Количественно оценить данную взаимосвязь можно с помощью построения уравнения регрессии или регрессионной функции.

Базисной регрессионной моделью является модель парной (однофакторной) регрессии. Парная регрессия – уравнение связи двух переменных у и х :

где – зависимая переменная (результативный признак);

–независимая, объясняющая переменная (факторный признак).

В зависимости от характера изменения у с изменением х различают линейные и нелинейные регрессии.

Линейная регрессия

Данная регрессионная функция называется полиномом первой степени и используется для описания равномерно развивающихся во времени процессов.

Наличие случайного члена (ошибки регрессии) связано с воздействием на зависимую переменную других неучтенных в уравнении факторов, с возможной нелинейностью модели, ошибками измерения, следовательно, появлениеслучайной ошибки уравнения регрессии может быть обусловлено следующими объективными причинами :

1) нерепрезентативность выборки. В модель парной регрессии включается фактор, не способный полностью объяснить вариацию результативного признака, который может быть подвержен влиянию многих других факторов (пропущенных переменных) в гораздо большей степени. Наприем, заработная плата может зависеть, кроме квалификации, от уровня образования, стажа работы, пола и пр.;

2) существует вероятность того, что переменные, участвующие в модели, могут быть измерены с ошибкой. Например, данные по расходам семьи на питание составляются на основании записей участников опросов, которые, как предполагается, тщательно фиксируют свои ежедневные расходы. Разумеется, при этом возможны ошибки.

На основе выборочного наблюдения оценивается выборочное уравнение регрессии (линия регрессии ):

,

где
– оценки параметров уравнения регрессии (
).

Аналитическая форма зависимости между изучаемой парой признаков (регрессионная функция) определяется с помощью следующих методов :

    На основе теоретического и логического анализа природы изучаемых явлений, их социально-экономической сущности. Например, если изучается зависимость между доходами населения и размером вкладов населения в банки, то очевидно, что связь прямая.

    Графический метод , когда характер связи оценивается визуально.

Эту зависимость можно наглядно увидеть, если построить график, отложив на оси абсцисс значения признака х , а на оси ординат – значения признака у . Нанеся на график точки, соответствующие значениям х и у , получим корреляционное поле :

а) если точки беспорядочно разбросаны по всему полю – это говорит об отсутствии зависимости между этими признаками;

б) если точки концентрируются вокруг оси, идущей от нижнего левого угла в верхний правый – то имеется прямая зависимость между признаками;

в) если точки концентрируются вокруг оси, идущей от верхнего левого угла в нижний правый – то обратная зависимость между признаками.

Если на корреляционном поле соединим точки отрезками прямой, то получим ломаную линию с некоторой тенденцией к росту. Это будет эмпирическая линия связи или эмпирическая линия регрессии . По ее виду можно судить не только о наличии, но и о форме зависимости между изучаемыми признаками.

Построение уравнения парной регрессии

Построение уравнения регрессии сводится к оценке ее параметров. Эти оценки параметров могут быть найдены различными способами. Одним их них является метод наименьших квадратов (МНК). Суть метода состоит в следующем. Каждому значению соответствует эмпирическое (наблюдаемое) значение. Построив уравнение регрессии, например уравнение прямой линии, каждому значениюбудет соответствовать теоретическое (расчетное) значение. Наблюдаемые значенияне лежат в точности на линии регрессии, т.е. не совпадают с. Разность между фактическим и расчетным значениями зависимой переменной называетсяостатком :

МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических , т.е. сумма квадратов остатков, минимальна:

Для линейных уравнений и нелинейных, приводимых к линейным, решается следующая система относительно а и b :

где n – численность выборки.

Решив систему уравнений, получим значения а и b , что позволяет записать уравнение регрессии (регрессионное уравнение):

где – объясняющая (независимая) переменная;

–объясняемая (зависимая) переменная;

Линия регрессии проходит через точку (,) и выполняются равенства:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы уравнений:

где – среднее значение зависимого признака;

–среднее значение независимого признака;

–среднее арифметическое значение произведения зависимого и независимого признаков;

–дисперсия независимого признака;

–ковариация между зависимым и независимым признаками.

Выборочной ковариацией двух переменных х , у называется средняя величина произведения отклонений этих переменных от своих средних

Параметр b при х имеет большое практическое значение и носит название коэффициента регрессии. Коэффициент регрессии показывает, на сколько единиц в среднем изменяется величина у х на 1 единицу своего измерения.

Знак параметра b в уравнении парной регрессии указывает на направление связи:

если
, то связь между изучаемыми показателями прямая, т.е. с увеличением факторного признаках увеличивается и результативный признак у , и наоборот;

если
, то связь между изучаемыми показателями обратная, т.е. с увеличением факторного признаках результативный признак у уменьшается, и наоборот.

Значение параметра а в уравнении парной регрессии в ряде случаев можно трактовать как начальное значение результативного признака у . Такая трактовка параметра а возможна только в том случае, если значение
имеет смысл.

После построения уравнения регрессии, наблюдаемые значения y можно представить как:

Остатки , как и ошибки, являются случайными величинами, однако они, в отличие от ошибок, наблюдаемы. Остаток есть та часть зависимой переменнойy , которую невозможно объяснить с помощью уравнения регрессии.

На основании уравнения регрессии могут быть вычислены теоретические значения у х для любых значений х .

В экономическом анализе часто используется понятие эластичности функции. Эластичность функции
рассчитывается как относительное изменениеy к относительному изменению x . Эластичность показывает, на сколько процентов изменяется функция
при изменении независимой переменной на 1%.

Поскольку эластичность линейной функции
не является постоянной величиной, а зависит отх , то обычно рассчитывается коэффициент эластичности как средний показатель эластичности.

Коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится величина результативного признака у при изменении факторного признака х на 1% от своего среднего значения:

где
– средние значения переменныхх и у в выборке.

Оценка качества построенной модели регрессии

Качество модели регрессии – адекватность построенной модели исходным (наблюдаемым) данным.

Чтобы измерить тесноту связи, т.е. измерить, насколько она близка к функциональной, нужно определить дисперсию, измеряющую отклонения у от у х и характеризующую остаточную вариацию, обусловленную прочими факторами. Они лежат в основе показателей, характеризующих качество модели регрессии.

Качество парной регрессии определяется с помощью коэффициентов, характеризующих

1) тесноту связи – индекса корреляции, парного линейного коэффициента корреляции;

2) ошибку аппроксимации;

3) качество уравнения регрессии и отдельных его параметров – средние квадратические ошибки уравнения регрессии в целом и отдельных его параметров.

Для уравнений регрессии любого вида определяется индекс корреляции , который характеризует только тесноту корреляционной зависимости, т.е. степень ее приближения к функциональной связи:

,

где – факторная (теоретическая) дисперсия;

–общая дисперсия.

Индекс корреляции принимает значения
, при этом,

если

если
– то связь между признакамих и у является функциональной, Чем ближе к 1, тем более тесной считается связь между изучаемыми признаками. Если
, то связь можно считать тесной

Дисперсии, необходимые для вычисления показателей тесноты связи вычисляются:

Общая дисперсия , измеряющая общую вариацию за счет действия всех факторов:

Факторная (теоретическая) дисперсия, измеряющая вариацию результативного признака у за счет действия факторного признака х :

Остаточная дисперсия , характеризующая вариацию признака у за счет всех факторов, кроме х (т.е. при исключенном х ):

Тогда по правилу сложения дисперсий:

Качество парной линейной регрессии может быть определено также с помощью парного линейного коэффициента корреляции :

,

где
– ковариация переменныхх и у ;

–среднеквадратическое отклонение независимого признака;

–среднеквадратическое отклонение зависимого признака.

Линейный коэффициент корреляции характеризует тесноту и направление связи между изучаемыми признаками. Он измеряется в пределах [-1; +1]:

если
– то связь между признаками прямая;

если
– то связь между признаками обратная;

если
– то связь между признаками отсутствует;

если
или
– то связь между признаками является функциональной, т.е. характеризуется полным соответствием междух и у . Чем ближе к 1, тем более тесной считается связь между изучаемыми признаками.

Если индекс корреляции (парный линейный коэффициент корреляции) возвести в квадрат, то получим коэффициент детерминации.

Коэффициент детерминации – представляет собой долю факторной дисперсии в общей и показывает, на сколько процентов вариация результативного признака у объясняется вариацией факторного признака х :

Он характеризует не всю вариацию у от факторного признака х , а лишь ту ее часть, которая соответствует линейному уравнению регрессии, т.е. показывает удельный вес вариации результативного признака, линейно связанной с вариацией факторного признака.

Величина
– доля вариации результативного признака, которую модель регрессии учесть не смогла.

Рассеяние точек корреляционного поля может быть очень велико, и вычисленное уравнение регрессии может давать большую погрешность в оценке анализируемого показателя.

Средняя ошибка аппроксимации показывает среднее отклонение расчетных значений от фактических:

Максимально допустимое значение 12–15%.

Мерой разброса зависимой переменной вокруг линии регрессии служит стандартная ошибка.Для всей совокупности наблюдаемых значений рассчитывается стандартная (среднеквадратическая) ошибка уравнения регрессии , которая представляет собой среднее квадратическое отклонение фактических значений у относительно теоретических значений, рассчитанных по уравнению регрессии у х .

,

где
– число степеней свободы;

m – число параметров уравнения регрессии (для уравнения прямой m =2).

Оценить величину средней квадратической ошибки можно сопоставив ее

а) со средним значение результативного признака у ;

б) со средним квадратическим отклонением признака у :

если
, то использование данного уравнения регрессии является целесообразным.

Отдельно оцениваются стандартные (среднеквадратические) ошибки параметров уравнения и индекса корреляции :

;
;
.

х – среднее квадратическое отклонение х .

Проверка значимости уравнения регрессии и показателей тесноты связи

Чтобы построенную модель можно было использовать для дальнейших экономических расчетов, проверки качества построенной модели недостаточно. Необходимо также проверить значимость (существенность) полученных с помощью метода наименьших квадратов оценок уравнения регрессии и показателя тесноты связи, т.е. необходимо проверить их на соответствие истинным параметрам взаимосвязи.

Это связано с тем, что исчисленные по ограниченной совокупности показатели сохраняют элемент случайности, свойственный индивидуальным значениям признака. Поэтому они являются лишь оценками определенной статистической закономерности. Необходима оценка степени точности и значимости (надежности, существенности) параметров регрессии. Под значимостью понимают вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков.

Проверка значимости – проверка предположения того, что параметры отличаются от нуля.

Оценка значимости парного уравнения регрессии сводится к проверке гипотез о значимости уравнения регрессии в целом и отдельных его параметров (a , b ), парного коэффициента детерминации или индекса корреляции.

В этом случае могут быть выдвинуты следующие основные гипотезы H 0 :

1)
– коэффициенты регрессии являются незначимыми и уравнение регрессии также является незначимым;

2)
– парный коэффициент детерминации незначим и уравнение регрессии также является незначимым.

Альтернативной (или обратной) выступают следующие гипотезы:

1)
– коэффициенты регрессии значимо отличаются от нуля, и построенное уравнение регрессии является значимым;

2)
– парный коэффициент детерминации значимо отличаются от нуля и построенное уравнение регрессии является значимым.

Проверка гипотезы о значимости уравнения парной регрессии

Для проверки гипотезы о статистической незначимости уравнения регрессии в целом и коэффициента детерминации используется F -критерий (критерий Фишера ):

или

где k 1 = m –1 ; k 2 = n m – число степеней свободы;

n – число единиц совокупности;

m – число параметров уравнения регрессии;

–факторная дисперсия;

–остаточная дисперсия.

Гипотеза проверяется следующим образом:

1) если фактическое (наблюдаемое) значение F -критерия больше критического (табличного) значения данного критерия
, то с вероятностью
основная гипотеза о незначимости уравнения регрессии или парного коэффициента детерминации отвергается, и уравнение регрессии признается значимым;

2) если фактическое (наблюдаемое) значение F-критерия меньше критического значения данного критерия
, то с вероятностью (
) основная гипотеза о незначимости уравнения регрессии или парного коэффициента детерминации принимается, и построенное уравнение регрессии признается незначимым.

Критическое значение F -критерия находится по соответствующим таблицам в зависимости от уровня значимости и числа степеней свободы
.

Число степеней свободы – показатель, который определяется как разность между объемом выборки (n ) и числом оцениваемых параметров по данной выборке (m ). Для модели парной регрессии число степеней свободы рассчитывается как
, так как по выборке оцениваются два параметра (
).

Уровень значимости – величина, определяемая
,

где – доверительная вероятность попадания оцениваемого параметра в доверительный интервал. Обычно принимается 0,95. Таким образом– это вероятность того, что оцениваемый параметр не попадет в доверительный интервал, равная 0,05 (5%) .

Тогда в случае оценки значимости уравнения парной регрессии критическое значение F-критерия вычисляется как
:

.

Проверка гипотезы о значимости параметров уравнения парной регрессии и индекса корреляции

При проверке значимости параметров уравнения (предположения того, что параметры отличаются от нуля) выдвигается основная гипотеза о незначимости полученных оценок (
. В качестве альтернативной (обратной) выдвигается гипотеза о значимости параметров уравнения (
).

Для проверки выдвинутых гипотез используется t -критерий (t -статистика) Стьюдента . Наблюдаемое значение t -критерия сравнивается со значением t -критерия, определяемого по таблице распределения Стьюдента (критическим значением). Критическое значение t -критерия
зависит от двух параметров: уровня значимостии числа степеней свободы
.

Выдвинутые гипотезы проверяются следующим образом:

1) если модуль наблюдаемого значения t -критерия больше критического значения t -критерия, т.е.
, то с вероятностью
основную гипотезу о незначимости параметров регрессии отвергают, т.е. параметры регрессии не равны 0;

2) если модуль наблюдаемого значения t -критерия меньше или равен критическому значению t -критерия, т.е.
, то с вероятностью
основная гипотеза о незначимости параметров регрессии принимается, т.е. параметры регрессии почти не отличаются от 0 или равны 0.

Оценка значимости коэффициентов регрессии с помощью критерия Стьюдента проводится путем сопоставления их оценок с величиной стандартной ошибки:

;

Для оценки статистической значимости индекса (линейного коэффициента) корреляции применяется также t -критерий Стьюдента.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http :// www . allbest . ru /

Министерство образования и науки Российской Федерации

Федеральное государственное бюджетное образовательное учреждение высшего образования

«Комсомольский-на-Амуре государственный технический университет»

Факультет экономики и менеджмента

Кафедра «Экономики, финансов и бухгалтерского учета»

РАСЧЁТНО-ГРАФИЧЕСКОЕ ЗАДАНИЕ

по дисциплине «Эконометрика»

Студент группы

А.Ю. Зайченко

Преподаватель

И.И. Антонова

Таблица 1

Номер региона

Среднедушевой прожиточный минимум в день одного трудоспособного, руб.,

Среднедневная заработная плата, руб.,

Требуется:

1. Построить линейное уравнение парной регрессии от.

3. Оценить статистическую значимость параметров регрессии и корреляции с помощью -критерия Фишера и -критерия Стьюдента.

4. Выполнить прогноз заработной платы при прогнозном значении среднедушевого прожиточного минимума, составляющем 107% от среднего уровня.

5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

6. На одном графике построить исходные данные и теоретическую прямую.

1. Для расчета параметров уравнения линейной регрессии строим расчетную таблицу 2. линейный корреляция аппроксимация регрессия

Таблица 2

Среднее значение

Получено уравнение регрессии:

С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,89 руб.

2. Тесноту линейной связи оценит коэффициент корреляции:

Это означает, что 51% вариации заработной платы () объясняется вариацией фактора - среднедушевого прожиточного минимума.

Качество модели определяет средняя ошибка аппроксимации:

Качество построенной модели оценивается как хорошее, так как не превышает 8-10%.

3. Оценку значимости уравнения регрессии в целом проведем с помощью -критерия Фишера. Фактическое значение -критерия:

Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы и составляет. Так как, то уравнение регрессии признается статистически значимым.

Оценку статистической значимости параметров регрессии проведем с помощью -статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Табличное значение -критерия для числа степеней свободы и составит.

Определим случайные ошибки, :

Фактические значения -статистики превосходят табличное значение:

поэтому параметры, и не случайно отличаются от нуля, а статистически значимы. Рассчитаем доверительные интервалы для параметров регрессии и. Для этого определим предельную ошибку для каждого показателя:

Доверительные интервалы:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры и, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

тогда прогнозное значение заработной платы составит:

Ошибка прогноза составит:

Предельная ошибка прогноза, которая в случаев не будет превышена, составит:

Доверительный интервал прогноза:

Выполненный прогноз среднемесячной заработной платы является надежным () и находится в пределах от 131,66 руб. до 190,62 руб. В заключение решения задачи построим на одном графике исходные данные и теоретическую прямую (рисунок1)

Рисунок 1

Размещено на Allbest.ru

Подобные документы

    Построение линейного уравнения парной регрессии, расчет линейного коэффициента парной корреляции и средней ошибки аппроксимации. Определение коэффициентов корреляции и эластичности, индекса корреляции, суть применения критерия Фишера в эконометрике.

    контрольная работа , добавлен 05.05.2010

    Расчет параметров парной линейной регрессии. Оценка статистической значимости уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента. Построение матрицы парных коэффициентов корреляции. Статистический анализ с помощью ППП MS EXCEL.

    контрольная работа , добавлен 14.05.2008

    Расчет линейного коэффициента парной и частной корреляции. Статистическая значимость параметров регрессии и корреляции. Анализ корреляционного поля данных. Точность прогноза, расчет ошибки и доверительный интервал. Коэффициент множественной детерминации.

    контрольная работа , добавлен 11.12.2010

    Экономическая интерпретация коэффициента регрессии. Нахождение статочной суммы квадратов и оценка дисперсии остатков. Проверка значимости параметров уравнения регрессии с помощью t-критерия Стьюдента. Расчет средней относительной ошибки аппроксимации.

    контрольная работа , добавлен 23.03.2010

    Построение доверительного интервала для коэффициента регрессии. Определение ошибки аппроксимации, индекса корреляции и F-критерия Фишера. Оценка эластичности изменения материалоемкости продукции. Построение линейного уравнения множественной регрессии.

    контрольная работа , добавлен 11.04.2015

    Расчет параметров уравнения линейной регрессии, оценка тесноты связи с помощью показателей корреляции и детерминации. Определение средней ошибки аппроксимации. Статистическая надежность моделирования с помощью F-критерия Фишера и t-критерия Стьюдента.

    контрольная работа , добавлен 17.10.2009

    Определение количественной зависимости массы пушного зверька от его возраста. Построение уравнения парной регрессии, расчет его параметров и проверка адекватности. Оценка статистической значимости параметров регрессии, расчет их доверительного интервала.

    лабораторная работа , добавлен 02.06.2014

    Построение гипотезы о форме связи денежных доходов на душу населения с потребительскими расходами в Уральском и Западно-Сибирском регионах РФ. Расчет параметров уравнений парной регрессии, оценка их качества с помощью средней ошибки аппроксимации.

    контрольная работа , добавлен 05.11.2014

    Анализ метода наименьших квадратов для парной регрессии, как метода оценивания параметров линейной регрессии. Рассмотрение линейного уравнения парной регрессии. Исследование множественной линейной регрессии. Изучение ошибок коэффициентов регрессии.

    контрольная работа , добавлен 28.03.2018

    Построение поля корреляции. Расчет параметров уравнений парной регрессии. Зависимость средней ожидаемой продолжительности жизни от некоторых факторов. Изучение "критерия Фишера". Оценка тесноты связи с помощью показателей корреляции и детерминации.

1. Основные определения и формулы

Парная регрессия - регрессия (связь) между двумя переменными и т.е. модель вида:

где - зависимая переменная (результативный признак);

- независимая объясняющая переменная (признак-фактор);

Возмущение или стохастическая переменная, включающая влияние неучтенных в модели факторов.

Практически в каждом отдельном случае величина складывается из двух слагаемых:

где - фактическое значение результативного признака;

Теоретическое значение результативного признака, найденное исходя из уравнения регрессии. Знак «^» означает, что между переменными и нет строгой функциональной зависимости.

Различают линейные и нелинейные регрессии.

Линейная регрессия описывается уравнением прямой

Нелинейные регрессии делятся на два класса:

1) регрессии, нелинейные по объясняющим переменным, но линейные по оцениваемым параметрам , например:

Полиномы разных степеней

Равносторонняя гипербола

2) регрессии, нелинейные по оцениваемым параметрам , например:

Степенная

Показательная

Экспоненциальная

Для построения парной линейной регрессии вычисляют вспомогательные величины ( - число наблюдений).

Выборочные средние : и

Выборочная ковариация между и

или

Ковариация - это числовая характеристика совместного распределения двух случайных величин.

Выборочная дисперсия для

или

Выборочная дисперсия для

или

Выборочная дисперсия характеризует степень разброса значений случайной величины вокруг среднего значения (вариабельность, изменчивость).

Тесноту связи изучаемых явлений оценивает выборочный коэффициент корреляции между и

Коэффициент корреляции изменяется в пределах от -1 до +1. Чем ближе от по модулю к 1, тем ближе статистическая зависимость между и к линейной функциональной.

Если =0, то линейная связь между и отсутствует; <0,3 - связь слабая; 0,3<0,7 - связь умеренная; 0,7<0,9 - связь сильная; 0,9<0,99 - связь весьма сильная.

Положительное значение коэффициента свидетельствует о том, то связь между признаками прямая (с ростом увеличивается значение ), отрицательное значение - связь обратная (с ростом значение уменьшается).

Построение линейной регрессии сводится к оценке ее параметров и Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака от теоретических минимальна, т.е.

Для линейной регрессии параметры и находятся из системы нормальных уравнений:

Решая систему, находим в на

и параметр

Коэффициент при факторной переменной показывает, насколько изменится в среднем величина при изменении фактора на единицу измерения.

Параметр когда Если не может быть равен 0, то не имеет экономического смысла. Интерпретировать можно только знак при если то относительное изменение результата происходит медленнее, чем изменение фактора, т.е. вариация результата меньше вариации фактора и наоборот.

Для оценки качества построенной модели регрессии можно использовать коэффициент детерминации либо среднюю ошибку аппроксимации .

К оэффициент детерминации

Или

показывает долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака Соответственно, величина характеризует долю дисперсии показателя вызванную влиянием неучтенных в модели факторов и прочих причин.

Чем ближе к 1, тем качественнее регрессионная модель, т.е. построенная модель хорошо аппроксимирует исходные данные.

Средняя ошибка аппроксимации - это среднее относительное отклонение теоретических значений от фактических т.е.

Построенное уравнение регрессии считается удовлетворительным, если значениене превышает 10-12%.

Для линейной регрессии средний коэффициент эластичности находится по формуле:

Средний коэффициент эластичности показывает на сколько процентов в среднем по совокупности изменится результат от своей величины при изменении фактора на 1% от своего значения.

Оценка з начимост и уравнения регрессии в целом дается с помощью -критерия Фишера, который заключается в проверке гипотезы о статистической незначимости уравнения регрессии. Для этого выполняется сравнениефактич е ского и критического (табличного) значений - критерия Фишера.

определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы, т.е.

- максимально возможное значение критерия под влиянием случайных факторов при степенях свободы =1, =-2 и уровне значимости находится из таблицы -критерия Фишера (таблица 1 приложения).

Уровень значимости - это вероятность отвергнуть правильную гипотезу при условии, что она верна.

Если то гипотеза об отсутствии связи изучаемого показателя с фактором отклоняется и делается вывод о существенности этой связи с уровнем значимости (т.е. уравнение регрессии значимо).

Если то гипотеза принимается и признается статистическая незначимость и ненадежность уравнения регрессии.

Для линейной регрессии значимость коэффициентов регрессии оценивают с помощью - критерия Стьюдента, согласно которому выдвигается гипотеза о случайной природе показателей, т.е. о незначимом их отличии от нуля. Далее рассчитываются фактические значения критерия для каждого из оцениваемых коэффициентов регрессии, т.е.

где и - стандартные ошибки параметров линейной регрессии определяются по формулам:

- максимально возможное значение критерия Стьюдента под влиянием случайных факторов при данной степени свободы =-2 и уровне значимости находится из таблицы критерия Стьюдента (таблица 2 приложения).

Если то гипотеза о несущественности коэффициента регрессии отклоняется с уровнем значимости т.е. коэффициент ( или )не случайно отличается от нуля и сформировался под влиянием систематически действующего фактора

Если то гипотеза не отклоняется и признается случайная природа формирования параметра.

Значимость линейного коэффициента корреляции также проверяется с помощью - критерия Стьюдента, т.е.

Гипотеза о несущественности коэффициента корреляции отклоняется с уровнем значимости если

Замечание. Для линейной парной регрессии проверки гипотез о значимости коэффициента и коэффициента корреляции равносильны проверке гипотезы о существенности уравнения регрессии в целом, т.е.

Для расчета доверительного интервала определяют предельную ошибку для каждого показателя, т.е.

Доверительные интервалы для коэффициентов линейной регрессии:

Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, т.к. он не может одновременно принимать и положительное, и отрицательное значения.

Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего прогнозного значения Затем вычисляется средняя стандартная ошибка прогноза

где

и строится доверительный интервал прогноза

Интервал может быть достаточно широк за счет малого объема наблюдений.

Регрессии, нелинейные по включенным переменным , приводятся к линейному виду простой заменой переменных, а дальнейшая оценка параметров производится с помощью МНК.

Г ипербол ическая регрессия:

Р егрессии , нелинейны е по оцениваемым параметрам , делятся на два типа: внутренне нелинейные и т.п. (к линейному виду не приводятся) и внутренне линейные (приводятся к линейному виду с помощью соответствующих преобразований), например:

Экспоненциальная регрессия:

Линеаризующее преобразование:

Степенная регрессия:

Линеаризующее преобразование:

Показатель ная регрессия:

Линеаризующее преобразование:

Логарифмическ ая регрессия:

Линеаризующее преобразование:

2. Решение типовых задач

Пример 9 .1 . По 15 сельскохозяйственным предприятиям (табл. 9.1) известны: - количество техники на единицу посевной площади (ед/га) и - объем выращенной продукции (тыс. ден. ед.). Необходимо:

1) определить зависимость от

2) построить корреляционные поля и график уравнения линейной регрессии на

3) сделать вывод о качестве модели и рассчитать прогнозное значение при прогнозном значении составляющем 112% от среднего уровня.

Таблица 9.1

Решение:

1) В Excel составим вспомогательную таблицу 9.2.

Таблица 9.2

Рис. 9 .1. Таблица для расчета промежуточных значений

Вычислим количество измерений Для этого в ячейку В19 поместим =СЧЁТ(A2:A 16 ) .

С помощью функции ∑ (Автосумма) на панели инструментов Стандар т ная найдем сумму всех (ячейка В17 ) и (ячейка С17 ).

Рис. 9.2. Расчет суммы значений и средних

Для вычисления средних значений используем встроенную функцию MS Excel СРЗНАЧ(), в скобках указывается диапазон значений для определения средней. Таким образом, средний объем выращенной продукции по 15 хозяйствамсоставляет 210,833 тыс.ден. ед., а средние количество техники - 6,248ед/га.

Для заполнения столбцов D , E , F введем формулувычисления произведения: в ячейку D 2 поместим =B2*C2 , затем на клавиатуре нажмем ENTER. Щелкнем левой кнопкой мыши по ячейке D 2 и, ухватив за правый нижний угол этой ячейки (черный плюсик), потянем вниз до ячейки D 16 . Произойдет автоматическое заполнение диапазона D 3 - D 16 .

Для вычисления выборочн ой ковариации между и используем формулу т.е. в ячейку B 21 поместим =D 18- B 18* C 18 и получим 418,055 (рис. 9.3).

Рис. 9 .3. Вычисление

Выборочн ую дисперси ю для найдем по формуле для этого в ячейку B 22 поместим =E18-B18 ^2 (^- знак указывающий возведение в степень) и получим 11,337. Аналогично определяем =16745,05556 (рис. 9.4)

Рис. 9 .4. Вычисление Var (x ) и Var (y )

Далее используя стандартную функцию MS Excel «КОРРЕЛ» вычисляем значение линейного коэффициента корреляции для нашей задачи функция будет иметь вид «=КОРРЕЛ(B2:B16;C2:C16)», а значение rxy=0,96. Полученное значение коэффициента корреляции указывает на прямую и сильную связь наличия техники и объемов выращенной продукции.

Находим в ыборочный коэффициент линейной регрессии =36,87; параметр =-17,78. Значит, уравнение парной линейной регрессии имеет вид =-17,78+36,87

Коэффициент показывает, что при увеличении количества техники на 1 ед/га объем выращенной продукции в среднем увеличится на 36,875 тыс. ден. ед. (рис. 9.5)

Рис. 9 .5. Расчет параметров уравнения регрессии.

Таким образом, уравнение регрессии будет иметь вид: .

Подставляем в полученное уравнение фактические значения x (количество техники) находим теоретические значения объемов выращенной продукции (рис. 9.6).

Рис. 9 .6. Расчет теоретических значений объемов выращенной продукции

Используя Мастер диаграмм строим корреляционные поля (выделяя столбцы со значениями и ) и уравнение линейной регрессии (выделяя столбцы со значениями и ). Выбираем тип диаграммы - Т очечная В полученной диаграмме заполняем нужные параметры (название, подписи к осям, легенду и т.п.). В результате получим график представленный на рис. 9.7.

Рис. 9 .7. График зависимости объема выращенной продукции от количества техники

Для оценки качества построенной модели регрессии вычислим:

. к оэффициент детерминации =0,92, который показывает, что изменение затрат на выпуск продукции на 92% объясняется изменением объема произведенной продукции а 8% приходится на долю неучтенных в модели факторов, что указывает на качественность построенной регрессионной модели;

. с редн юю ошибк у аппроксимации . Для этого в столбце H вычислим разность фактического и теоретического значений а в столбце I - выражение . Обращаем Ваше внимание, что для вычисления значения по модулю используется стандартная функция MS Excel «ABS». При умножении среднего значения (ячейка I 18 ) на 100% получим 18,2%. Следовательно, в среднем теоретические значенияотклоняются от фактических на 18,2%(рис. 1.8).

С помощью -критерия Фишераоценим з начимост ь уравнения регре с сии в целом : 150,74.

На уровне значимости 0,05 =4,67 определяем c помощью встроенной статистической функции FРАСПОБР (рис. 1.9). При этом необходимо помнить, что «Степени_свободы1» это знаменатель , а «Степени_свободы2» - числитель , где - число параметров в уравнении регрессии (у нас 2), n - число исходных пар значений (у нас 15).

Так как то уравнение регрессии значимо при =0,05.

Рис. 9 .8. Определение коэффициента детерминации и средней ошибки апроксимации

Рис. 9 . 9 . Диалоговое окно функции FРАСПОБР

Далее определяем с редний коэффициент эластичности по формуле. Найденное показывает, что с ростом объема произведенной продукции на 1% затраты на выпуск этой продукции в среднем по совокупности возрастут на 1,093%.

Рассчитаем прогнозное значение путем подстановки в уравнение регрессии =-19,559+36,8746 прогнозного значения фактора =1,12=6,248*1,12=6,9978. Получим =238,48. Следовательно, при количестве техники в количестве 6,9978ед/гаобъем выпущенной продукции составит 238,48 тыс. ден. ед.

Найдем остаточную дисперсию, для этого вычислим сумму квадратов разности фактического и теоретического значений. =39,166 поместив следующую формулу =КОРЕНЬ(J17/(B19-2)) в ячейку H 2 1 (рис. 9.10).

Рис. 9 .10. Определение остаточной дисперсии

С редн яя стандартн ая ошибка прогноза :

На уровне значимости =0,05 с помощью встроенной статистической функции СТЬЮДРАСПОБР определим =2,1604 и вычислим предельную ошибку прогноза, которая в 95% случаев не будет превышать .

Д оверительный интервал прогноза :

Или .

Выполненный прогноз затрат на выпуск продукции оказался надежным (1-0,05=0,95), но неточным, так как диапазон верхней и нижней границ доверительного интервала составляет раза. Это произошло за счет малого объема наблюдений.

Необходимо отменить, что в MS Excel встроены статистические функции позволяющие значительно снизить количество промежуточных вычислений, например (рис. 9.11.):

Для вычисления в ыборочны х средни х используем функцию СРЗНАЧ(число1:число N ) из категории Статистические .

Выборочная ковариация между и находится с помощью функции КОВАР(массив X ;массив Y ) из категории Статистические .

Выборочн ые дисперси и определяются статистической функцией ДИСПР(число1:число N ) .

Рис. 9 .11. Вычисление п оказателей встроенными функциями MS Excel

П араметр ы линейной регрессии в Excel можно определить несколькими способами.

1 способ) С помощью встроенной функции ЛИНЕЙН . Порядок действий следующий:

1. Выделить область пустых ячеек 5x2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики или область 1x2 - для получения только коэффициентов регрессии.

2. С помощью Мастера функций среди Статистических выбрать функцию ЛИНЕЙН и заполнить ее аргументы (рис. 9.12):

Рис. 9 . 12 . Диалоговое окно ввода аргументов функции ЛИНЕЙН

Известные_значения_ y

Известные_значения_ x

Конст - логическое значение (1 или 0), которое указывает на наличие или отсутствие свободного члена в уравнении; ставим 1;

Статистика - логическое значение (1 или 0), которое указывает, выводить дополнительную информацию по регрессионному анализу или нет; ставим 1.

3. В левой верхней ячейке выделенной области появится первое число таблицы. Для раскрытия всей таблицы нужно нажать на клавишу < F 2> , а затем - на комбинацию клавиш < CTRL > + < SHIFT > + < ENTER > .

Дополнительная регрессионная статистика будет выведена в виде (табл. 9.3):

Таблица 9.3

Значение коэффициента

Значение коэффициента

Среднеквадратическое
отклонение

Среднеквадратическое
отклонение

Коэффициент
детерминации

Среднеквадратическое
отклонение

Статистика

Число степеней свободы

Регрессионная сумма квадратов

Остаточная сумма квадратов

В результате применения функции ЛИНЕЙН получим:

( 2 способ) С помощью инструмента анализа данных Регрессия можно получить результаты регрессионной статистики, дисперсионного анализа, доверительные интервалы, остатки, графики подбора линий регрессии, графики остатков и нормальной вероятности. Порядок действий следующий:

1. Необходимо проверить доступ к Пакету анализа . Для этого в главном меню (через кнопку Microsoft Office получить доступ к параметрам MS Excel) в диалоговом окне «Параметры MS Excel » выбрать команду «Надстройки» и справа выбрать надстройку Пакета анализ а далее нажать кнопку «Перейти» (рис. 9.13). В открывшемся диалоговом окне поставить галочку напротив «Пакет анализа» и нажать «ОК» (рис. 9.14).

На вкладке «Данные» в группе «Анализ» появится доступ к установленной надстройке. (рис. 9.15).

Рис. 9 .13. Включение надстроек в MS Excel

Рис. 9 .14. Диалоговое окно «Надстройки»

Рис. 9 .15. Надстройка «Анализ данных» на ленте MS Excel 2007 .

2. Выбрать на «Данные» в группе «Анализ» выбираем команду Анализ да н ных в открывшемся диалоговом окне выбрать инструмент анализа «Регрессия» и нажать «ОК» (рис. 9.16):

Рис. 9 .16. Диалоговое окно «Анализ данных»

В появившемся диалоговом окне (рис. 9.17) заполнить поля:

Входной интервал Y - диапазон, содержащий данные результативного признака Y;

Входной интервал X - диапазон, содержащий данные объясняющего признака X;

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Конст анта-ноль - флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист - можно задать произвольное имя нового листа, на который будут выведены результаты.

Рис. 9 .17. Диалоговое окно «Регрессия»

Для получения информации об остатках, графиков остатков, подбора и нормальной вероятности нужно установить соответствующие флажки в диалоговом окне.

Рис. 9 . 18 . Результаты применения инструмента Регрессия

В MS Excel линия тренда может быть добавлена в диаграмму с областями гистограммы или в график. Для этого:

1. Необходимо выделить область построения диаграммы и в ленте выбрать «Макет» и в группе анализ выбрать команду «Линия тренда» (рис. 9.19.). В выпадающем пункте меню выбрать «Дополнительные параметры линии тренда».

Рис. 1.19. Лента

2. В появившемся диалоговом окне выбрать фактические значения, затем откроется диалоговое окно «Формат линии тренда» (рис. 9.20.) в котором выбирается вид линии тренда и устанавливаются соответствующие параметры.

Рис. 9 . 20 . Диалоговое окно «Формат линии тренда»

Для полиноминального тренда необходимо задать степень аппроксимирующего полинома, для линейной фильтрации - количество точек усреднения.

Выбираем Линейная для построения уравнения линейной регрессии.

В качестве дополнительной информации можно показать уравнение на ди а грамме и поместить на диаграмму величину (рис.9.21).

Рис. 9 . 21 . Линейный тренд

Нелинейные модели регрессии иллюстрируются при вычислении параметров уравнения с применением выбранной в Excel статистической функции Л ГРФПРИБЛ . Порядок вычислений аналогичен применению функции ЛИНЕЙН.