Назначение сервиса . С помощью сервиса в онлайн режиме можно найти:
  • параметры уравнения линейной регрессии y=a+bx , линейный коэффициент корреляции с проверкой его значимости;
  • тесноту связи с помощью показателей корреляции и детерминации, МНК-оценку, статическую надежность регрессионного моделирования с помощью F-критерия Фишера и с помощью t-критерия Стьюдента , доверительный интервал прогноза для уровня значимости α

Уравнение парной регрессии относится к уравнению регрессии первого порядка . Если эконометрическая модель содержит только одну объясняющую переменную, то она имеет название парной регрессии. Уравнение регрессии второго порядка и уравнение регрессии третьего порядка относятся к нелинейным уравнениям регрессии .

Пример . Осуществите выбор зависимой (объясняемой) и объясняющей переменной для построения парной регрессионной модели. Дайте . Определите теоретическое уравнение парной регрессии. Оцените адекватность построенной модели (интерпретируйте R-квадрат, показатели t-статистики, F-статистики).
Решение будем проводить на основе процесса эконометрического моделирования .
1-й этап (постановочный) – определение конечных целей моделирования, набора участвующих в модели факторов и показателей, их роли.
Спецификация модели - определение цели исследования и выбор экономических переменных модели.
Ситуационная (практическая) задача. По 10 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x (в %).
2-й этап (априорный) – предмодельный анализ экономической сущности изучаемого явления, формирование и формализация априорной информации и исходных допущений, в частности относящейся к природе и генезису исходных статистических данных и случайных остаточных составляющих в виде ряда гипотез.
Уже на этом этапе можно говорить о явной зависимости уровня квалификации рабочего и его выработкой, ведь чем опытней работник, тем выше его производительность. Но как эту зависимость оценить?
Парная регрессия представляет собой регрессию между двумя переменными – y и x , т. е. модель вида:

Где y – зависимая переменная (результативный признак); x – независимая, или объясняющая, переменная (признак-фактор). Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина y складывается из двух слагаемых:

Где y – фактическое значение результативного признака; y x – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; ε – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.
Графически покажем регрессионную зависимость между выработкой продукции на одного работника и удельного веса рабочих высокой квалификации.


3-й этап (параметризация) – собственно моделирование, т.е. выбор общего вида модели, в том числе состава и формы входящих в неё связей между переменными. Выбор вида функциональной зависимости в уравнении регрессии называется параметризацией модели. Выбираем уравнение парной регрессии , т.е. на конечный результат y будет влиять только один фактор.
4-й этап (информационный) – сбор необходимой статистической информации, т.е. регистрация значений участвующих в модели факторов и показателей. Выборка состоит из 10 предприятий отрасли.
5-й этап (идентификация модели) – оценивание неизвестных параметров модели по имеющимся статистическим данным.
Чтобы определить параметры модели, используем МНК - метод наименьших квадратов . Система нормальных уравнений будет выглядеть следующим образом:
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для расчета параметров регрессии построим расчетную таблицу (табл. 1).
x y x 2 y 2 x y
10 6 100 36 60
12 6 144 36 72
15 7 225 49 105
17 7 289 49 119
18 7 324 49 126
19 8 361 64 152
19 8 361 64 152
20 9 400 81 180
20 9 400 81 180
21 10 441 100 210
171 77 3045 609 1356

Данные берем из таблицы 1 (последняя строка), в итоге имеем:
10a + 171 b = 77
171 a + 3045 b = 1356
Эту СЛАУ решаем методом Крамера или методом обратной матрицы .
Получаем эмпирические коэффициенты регрессии: b = 0.3251, a = 2.1414
Эмпирическое уравнение регрессии имеет вид:
y = 0.3251 x + 2.1414
6-й этап (верификация модели) – сопоставление реальных и модельных данных, проверка адекватности модели, оценка точности модельных данных.
Анализ проводим с помощью

Линейная парная регрессия находит широкое применение в экономет­рике в виде четкой экономической интерпретации ее параметров. Линейная регрессия сводится к нахождению уравнения вида

или . (3.6)

Уравнение вида позволяет по заданным значени­ям фактора х иметь теоретические значения результативного признака, подставляя в него фактические значения фактора x .

Построение парной линейной регрессии сводится к оценке ее пара­метров и . Оценки параметров линейной регрессии могут быть найдены разными методами. Например, методом наименьших квадратов (МНК).

Согласно метода наименьших квадратов оценки параметров и выбираются таким образом, чтобы сумма квадратов отклонений фактических значений ре­зультативного признака (у) от расчетных (теоретических, модельных) была ми­нимальна.Иными словами, из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной (рис. 3.2):

, (3.7)

Рис. 3.2. Линия регрессии с минимальной суммой квадратов расстояний по вертикали между точками и этой линией

Для дальнейших выводов в выражении (3.7) подставим модельное значение, т. е. и получим:

Чтобы найти минимум функции (3.8), надо вычислить част­ные производные по каждому из параметров и и приравнять их к нулю:

Преобразуя эту систему, получим следующую систему нор­мальных уравнений для оценки параметров и :

. (3.9)

Матричная форма записи этой системы имеет вид:

. (3.10)

Решая систему нормальных уравнений (3.10) в матричной форме получим:

Алгебраическая форма решения системы (3.11) можно записать следующим образам:

После несложных преобразовании формулу (3.12) можно записать в удобной форме:

Необходимо заметить, что оценки параметров уравнения регрессии можно получить и по другим формулам, например:

(3.14)

Здесь выборочный парный линейный коэффициент корреляции.

После вычисления параметров регрессии мы можем записать уравнение математической модели регрессии :

Необходим заметить, что параметр показывает среднее изменение результата с изменением фактора на одну единицу. Так, если в функции издержек (у - издержки (тыс. руб.), х - количество единиц продукции). То, следовательно, с увеличением объема продукции (х) на 1 ед. издержки производства возрастают в среднем на 2 тыс. руб., т. е. дополнительный прирост продукции на 1 ед. потребует увеличения затрат в среднем на 2 тыс. руб.

Возможность четкой экономической интерпретации коэф­фициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследова­ниях.

Формально - значение у при х = 0. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка свободного члена не имеет смысла. Параметр может не иметь экономического содержания. Попытки экономически интерпретировать параметр могут привести к абсурду, особен­но при < 0.

Пример 3.2 . Предположим по группе предприятий, выпускающих один и тот же вид продукции, рассматривается функция издержек: . Информация, необходимая для расчета оценок параметров и , представлена в табл. 3.1.

Таблица 3.1

Расчетная таблица

№ предприятия

Выпуск продукции, тыс. ед. ()

Затраты на производство, млн руб. ()

Система нормальных уравнений будет иметь вид:

.

Решение этой системы по формуле (4.13) дает результат:

Запишем модель уравнения регрессии (4.16):

Подставив в уравнение значения x , найдем теоретические (модельные) значения у, (см. последнюю графу табл. 3.1).

В данном случае величина параметра не имеет экономичес­кого смысла.

В рассматриваемом примере имеем:

Уравнение регрессии всегда дополняется показателем тесно­ты связи. При использовании линейной регрессии в качестве та­кого показателя выступает линейный коэффициент корреляции . Существуют разные модификации формулы линейного коэф­фициента корреляции. Некоторые из них приведены ниже:

Как известно, линейный коэффициент корреляции находит­ся в границах: .

Если коэффициент регрессии , то, и, наобо­рот, при, .

По данным табл. 4.1 величина линейного коэффициента кор­реляции составила 0,993, что достаточно близко к 1 и означает наличие очень тесной зависимости затрат на производство от ве­личины объема выпущенной продукции.

Следует иметь в виду, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины линейного коэффициента корреляции к нулю еще не означает от­сутствие связи между признаками. При иной спецификации мо­дели связь между признаками может оказаться достаточно тесной.

Для оценки качества подбора линейной функции рассчиты­вается квадрат линейного коэффициента корреляции , назы­ваемый коэффициентом детерминации. Коэффициент детермина­ции характеризует долю дисперсии результативного признака у, объяснимуюрегрессией, в общей дисперсии результативного признака.

Соответственно величина характеризует долю дисперсии вызванную влиянием остальных не учтенных в модели факторов.

В нашем примере . Следовательно, уравнением регрессии объясняется 98,6% дисперсии результативного признака,а на долюпрочих факторов приходится лишь 1,4% ее дисперсии (т. е. остаточная дисперсия). Величина коэффициента детерминации служитодним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньшероль прочих факторов, и, следовательно, линейная модельхорошо аппроксимирует исходные данные и ею можно воспользоваться для прогноза значений результативного признака. Так, полагая, что объем продукции предприятия может составить 6 тыс. ед., прогнозное значение для издержек производства ока­жется 221,01 тыс. руб.

Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Важным и нетривиальным этапом построения регрессионной модели является выбор уравнения регрессии. Этот выбор основывается на теоретических данных об изучаемом явлении и предварительном анализе имеющихся статистических данных.

Уравнение парной линейной регрессии имеет вид:

где - теоретические значения результативного признака, полученные по уравнению регрессии; - коэффициенты (параметры) уравнения регрессии.

Модель регрессии строится на основании статистических данных, причем могут использоваться как индивидуальные значения признака, так и сгруппированные данные. Для выявления связи между признаками по достаточно большому числу наблюдений статистические данные предварительно группируют по обоим признакам и строят корреляционную таблицу. При помощи корреляционной таблицы отображается только парная корреляционная связь, т.е. связь результативного признака с одним фактором. Оценка параметров уравнения регрессии осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и требование минимальности суммы квадратов отклонений эмпирических данных от выровненных значений результативного фактора :

.

Для линейного уравнения регрессии имеем:

Для нахождения минимума данной функции приравняем к нулю ее частные производные и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

где - объем исследуемой совокупности (число единиц наблюдения).

Решение системы нормальных уравнений позволяет найти параметры уравнения регрессии .

Коэффициент парной линейной регрессии является средним значением в точке , поэтому его экономическая интерпретация затруднена. Смысл этого коэффициента можно трактовать как усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов. Коэффициент показывает, на сколько в среднем изменяется значение результативного признака при изменении факторного признака на единицу.

После получения уравнения регрессии необходимо проверить его адекватность, то есть соответствие фактическим статистическим данным. С этой целью производится проверка значимости коэффициентов регрессии: выясняется, насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом случайного стечения обстоятельств.

Для проверки значимости коэффициентов простой линейной регрессии при объеме совокупности меньше 30 единиц используется критерий Стьюдента. Сопоставляя значение параметра с его средней ошибкой, определяют величину критерия:


где - средняя ошибка параметра .

Средняя ошибка параметров и рассчитываются по следующим формулам:

; ,

– объем выборки;

Среднеквадратическое отклонение результативного признака от выровненных значений ;

Среднеквадратическое отклонение факторного признака от общей средней :

или

Тогда расчетные (фактические) значения критерия соответственно равны:

- для параметра ;

- для параметра .

Вычисленные значения критерия сравниваются с критическими значениями , которые определяют по таблице Стьюдента с учетом принятого уровня значимости и числа степеней свободы , где - объем выборки, -1 ( - число факторных признаков). В социально-экономических исследованиях уровень значимости обычно принимают 0.05 или 0.01. Параметр признается значимым, если (отклоняется гипотеза о том, что параметр лишь в силу случайных обстоятельств оказался равным полученной величине, а в действительности равен нулю).

Адекватность регрессионной модели может быть оценена при помощи -критерия Фишера. Расчетное значение критерия определяется по формуле ,

где - число параметров модели;

Объем выборки.

По таблице определяется критическое значение -критерия Фишера для принятого уровня значимости и числа степеней свободы , . Если , то модель регрессии признается адекватной по этому критерию (отвергается гипотеза о несоответствии заложенных в уравнении и реально существующих связей).

Вторая задача корреляционно-регрессионного анализа – измерение тесноты зависимости результативного и факторного признака.

Для всех видов связи задача измерения тесноты зависимости может быть решена с помощью исчисления теоретического корреляционного отношения:

,

где - дисперсия в ряду выровненных значений результативного признака , обусловленная факторным признаком ;

- дисперсия в ряду фактических значений . Это общая дисперсия, которая слагается из дисперсии, обусловленной фактором (т.е. факторной дисперсии), и дисперсии остатка (отклонение эмпирических значений признака от выровненных теоретических).

На основании правила сложения дисперсий теоретическое корреляционное отношение может быть выражено через остаточную дисперсию :

.

Так как дисперсия отражает вариацию в ряду только за счет вариации фактора , а дисперсия отражает вариацию за счет всех факторов, то их отношение, именуемое теоретическим коэффициентом детерминации , показывает, какой удельный вес в общей дисперсии ряда занимает дисперсия, вызываемая вариацией фактора . Квадратный корень из отношения этих дисперсий дает теоретическое корреляционное отношение. При нелинейных связях теоретическое корреляционное отношение называют индексом корреляции и обозначают .

Если , то это означает, что роль других факторов в вариации отсутствует, остаточная дисперсия равна нулю и отношение означает полную зависимость вариации от . Если , то это означает, что вариация никак не влияет на вариацию , и в этом случае . Следовательно, корреляционное отношение принимает значения от 0 до 1. Чем ближе корреляционное отношение к 1, тем теснее связь между признаками.

Кроме того, при линейной форме уравнения связи применяется другой показатель тесноты связи – линейный коэффициент корреляции:

.

Линейный коэффициент корреляции принимает значения от –1 до 1. Отрицательные значения указывают на обратную зависимость, положительные – на прямую. Чем ближе модуль коэффициента корреляции к единице, тем теснее связь между признаками.

Приняты следующие граничные оценки линейного коэффициента корреляции:

Связи нет;

Связь слабая;

Связь посредственная;

Связь сильная;

Связь очень сильная.

Квадрат линейного коэффициента корреляции называют линейным коэффициентом детерминации.

Факт совпадения или несовпадения теоретического корреляционного отношения и линейного коэффициента корреляции используется для оценки формы зависимости. Их значения совпадают только при наличии линейной связи. Несовпадение этих величин свидетельствует о нелинейности связи между признаками. Принято считать, что если , то гипотезу о линейности связи можно считать подтвержденной.

Показатели тесноты связи, особенно исчисленные по данным сравнительно небольшой статистической совокупности, могут искажаться действием случайных причин. Это вызывает необходимость проверки их надежности (значимости), дающей возможность распространять выводы, полученные по выборочным данным, на генеральную совокупность.

Для этого рассчитывается средняя ошибка коэффициента корреляции:

Где - число степеней свободы при линейной зависимости.

Затем находится отношение коэффициента корреляции к его средней ошибке, то есть , которое сравнивается с табличным значением критерия Стьюдента.

Если фактическое (расчетное) значение больше табличного (критического, порогового), то линейный коэффициент корреляции считается значимым, а связь между и - реальной.

После проверки адекватности построенной модели (уравнения регрессии) ее необходимо проанализировать. Для удобства интерпретации параметра используют коэффициент эластичности. Он показывает средние изменения результативного признака при изменении факторного признака на 1% и вычисляется по формуле:

Точность полученной модели может быть оценена на основании значения средней ошибки аппроксимации:

Кроме того, в некоторых информативными являются данные об остатках, характеризующих отклонение -х наблюдений от расчетных значений . Особый экономический интерес представляют значения, остатки которых имеют наибольшие положительные или отрицательные отклонения от ожидаемого уровня анализируемого показателя.

Парная линейная регрессия

ПРАКТИКУМ

Парная линейная регрессия: Практикум. –

Изучение эконометрики предполагает приобретение студентами опыта построения эконометрических моделей, принятия решений о спецификации и идентификации модели, выбора метода оценки параметров модели, оценки ее качества, интерпретации результатов, получения прогнозных оценок и пр. Практикум поможет студентам приобрести практические навыки в этих вопросах.

Утверждено редакционно-издательским советом

Составитель: М.Б. Перова, д.э.н., профессор

Общие положения

Эконометрическое исследование начинается с теории, устанавливающей связь между явлениями. Из всего круга факторов, влияющих на результативный признак, выделяются наиболее существенные факторы. После того, как было выявлено наличие взаимосвязи между изучаемыми признаками, определяется точный вид этой зависимости с помощью регрессионного анализа.

Регрессионный анализ заключается в определении аналитического выражения (в определении функции), в котором изменение одной величины (результативного признака) обусловлено влиянием независимой величины (факторного признака). Количественно оценить данную взаимосвязь можно с помощью построения уравнения регрессии или регрессионной функции.

Базисной регрессионной моделью является модель парной (однофакторной) регрессии. Парная регрессия – уравнение связи двух переменных у и х :

где – зависимая переменная (результативный признак);

–независимая, объясняющая переменная (факторный признак).

В зависимости от характера изменения у с изменением х различают линейные и нелинейные регрессии.

Линейная регрессия

Данная регрессионная функция называется полиномом первой степени и используется для описания равномерно развивающихся во времени процессов.

Наличие случайного члена (ошибки регрессии) связано с воздействием на зависимую переменную других неучтенных в уравнении факторов, с возможной нелинейностью модели, ошибками измерения, следовательно, появлениеслучайной ошибки уравнения регрессии может быть обусловлено следующими объективными причинами :

1) нерепрезентативность выборки. В модель парной регрессии включается фактор, не способный полностью объяснить вариацию результативного признака, который может быть подвержен влиянию многих других факторов (пропущенных переменных) в гораздо большей степени. Наприем, заработная плата может зависеть, кроме квалификации, от уровня образования, стажа работы, пола и пр.;

2) существует вероятность того, что переменные, участвующие в модели, могут быть измерены с ошибкой. Например, данные по расходам семьи на питание составляются на основании записей участников опросов, которые, как предполагается, тщательно фиксируют свои ежедневные расходы. Разумеется, при этом возможны ошибки.

На основе выборочного наблюдения оценивается выборочное уравнение регрессии (линия регрессии ):

,

где
– оценки параметров уравнения регрессии (
).

Аналитическая форма зависимости между изучаемой парой признаков (регрессионная функция) определяется с помощью следующих методов :

    На основе теоретического и логического анализа природы изучаемых явлений, их социально-экономической сущности. Например, если изучается зависимость между доходами населения и размером вкладов населения в банки, то очевидно, что связь прямая.

    Графический метод , когда характер связи оценивается визуально.

Эту зависимость можно наглядно увидеть, если построить график, отложив на оси абсцисс значения признака х , а на оси ординат – значения признака у . Нанеся на график точки, соответствующие значениям х и у , получим корреляционное поле :

а) если точки беспорядочно разбросаны по всему полю – это говорит об отсутствии зависимости между этими признаками;

б) если точки концентрируются вокруг оси, идущей от нижнего левого угла в верхний правый – то имеется прямая зависимость между признаками;

в) если точки концентрируются вокруг оси, идущей от верхнего левого угла в нижний правый – то обратная зависимость между признаками.

Если на корреляционном поле соединим точки отрезками прямой, то получим ломаную линию с некоторой тенденцией к росту. Это будет эмпирическая линия связи или эмпирическая линия регрессии . По ее виду можно судить не только о наличии, но и о форме зависимости между изучаемыми признаками.

Построение уравнения парной регрессии

Построение уравнения регрессии сводится к оценке ее параметров. Эти оценки параметров могут быть найдены различными способами. Одним их них является метод наименьших квадратов (МНК). Суть метода состоит в следующем. Каждому значению соответствует эмпирическое (наблюдаемое) значение. Построив уравнение регрессии, например уравнение прямой линии, каждому значениюбудет соответствовать теоретическое (расчетное) значение. Наблюдаемые значенияне лежат в точности на линии регрессии, т.е. не совпадают с. Разность между фактическим и расчетным значениями зависимой переменной называетсяостатком :

МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических , т.е. сумма квадратов остатков, минимальна:

Для линейных уравнений и нелинейных, приводимых к линейным, решается следующая система относительно а и b :

где n – численность выборки.

Решив систему уравнений, получим значения а и b , что позволяет записать уравнение регрессии (регрессионное уравнение):

где – объясняющая (независимая) переменная;

–объясняемая (зависимая) переменная;

Линия регрессии проходит через точку (,) и выполняются равенства:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы уравнений:

где – среднее значение зависимого признака;

–среднее значение независимого признака;

–среднее арифметическое значение произведения зависимого и независимого признаков;

–дисперсия независимого признака;

–ковариация между зависимым и независимым признаками.

Выборочной ковариацией двух переменных х , у называется средняя величина произведения отклонений этих переменных от своих средних

Параметр b при х имеет большое практическое значение и носит название коэффициента регрессии. Коэффициент регрессии показывает, на сколько единиц в среднем изменяется величина у х на 1 единицу своего измерения.

Знак параметра b в уравнении парной регрессии указывает на направление связи:

если
, то связь между изучаемыми показателями прямая, т.е. с увеличением факторного признаках увеличивается и результативный признак у , и наоборот;

если
, то связь между изучаемыми показателями обратная, т.е. с увеличением факторного признаках результативный признак у уменьшается, и наоборот.

Значение параметра а в уравнении парной регрессии в ряде случаев можно трактовать как начальное значение результативного признака у . Такая трактовка параметра а возможна только в том случае, если значение
имеет смысл.

После построения уравнения регрессии, наблюдаемые значения y можно представить как:

Остатки , как и ошибки, являются случайными величинами, однако они, в отличие от ошибок, наблюдаемы. Остаток есть та часть зависимой переменнойy , которую невозможно объяснить с помощью уравнения регрессии.

На основании уравнения регрессии могут быть вычислены теоретические значения у х для любых значений х .

В экономическом анализе часто используется понятие эластичности функции. Эластичность функции
рассчитывается как относительное изменениеy к относительному изменению x . Эластичность показывает, на сколько процентов изменяется функция
при изменении независимой переменной на 1%.

Поскольку эластичность линейной функции
не является постоянной величиной, а зависит отх , то обычно рассчитывается коэффициент эластичности как средний показатель эластичности.

Коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится величина результативного признака у при изменении факторного признака х на 1% от своего среднего значения:

где
– средние значения переменныхх и у в выборке.

Оценка качества построенной модели регрессии

Качество модели регрессии – адекватность построенной модели исходным (наблюдаемым) данным.

Чтобы измерить тесноту связи, т.е. измерить, насколько она близка к функциональной, нужно определить дисперсию, измеряющую отклонения у от у х и характеризующую остаточную вариацию, обусловленную прочими факторами. Они лежат в основе показателей, характеризующих качество модели регрессии.

Качество парной регрессии определяется с помощью коэффициентов, характеризующих

1) тесноту связи – индекса корреляции, парного линейного коэффициента корреляции;

2) ошибку аппроксимации;

3) качество уравнения регрессии и отдельных его параметров – средние квадратические ошибки уравнения регрессии в целом и отдельных его параметров.

Для уравнений регрессии любого вида определяется индекс корреляции , который характеризует только тесноту корреляционной зависимости, т.е. степень ее приближения к функциональной связи:

,

где – факторная (теоретическая) дисперсия;

–общая дисперсия.

Индекс корреляции принимает значения
, при этом,

если

если
– то связь между признакамих и у является функциональной, Чем ближе к 1, тем более тесной считается связь между изучаемыми признаками. Если
, то связь можно считать тесной

Дисперсии, необходимые для вычисления показателей тесноты связи вычисляются:

Общая дисперсия , измеряющая общую вариацию за счет действия всех факторов:

Факторная (теоретическая) дисперсия, измеряющая вариацию результативного признака у за счет действия факторного признака х :

Остаточная дисперсия , характеризующая вариацию признака у за счет всех факторов, кроме х (т.е. при исключенном х ):

Тогда по правилу сложения дисперсий:

Качество парной линейной регрессии может быть определено также с помощью парного линейного коэффициента корреляции :

,

где
– ковариация переменныхх и у ;

–среднеквадратическое отклонение независимого признака;

–среднеквадратическое отклонение зависимого признака.

Линейный коэффициент корреляции характеризует тесноту и направление связи между изучаемыми признаками. Он измеряется в пределах [-1; +1]:

если
– то связь между признаками прямая;

если
– то связь между признаками обратная;

если
– то связь между признаками отсутствует;

если
или
– то связь между признаками является функциональной, т.е. характеризуется полным соответствием междух и у . Чем ближе к 1, тем более тесной считается связь между изучаемыми признаками.

Если индекс корреляции (парный линейный коэффициент корреляции) возвести в квадрат, то получим коэффициент детерминации.

Коэффициент детерминации – представляет собой долю факторной дисперсии в общей и показывает, на сколько процентов вариация результативного признака у объясняется вариацией факторного признака х :

Он характеризует не всю вариацию у от факторного признака х , а лишь ту ее часть, которая соответствует линейному уравнению регрессии, т.е. показывает удельный вес вариации результативного признака, линейно связанной с вариацией факторного признака.

Величина
– доля вариации результативного признака, которую модель регрессии учесть не смогла.

Рассеяние точек корреляционного поля может быть очень велико, и вычисленное уравнение регрессии может давать большую погрешность в оценке анализируемого показателя.

Средняя ошибка аппроксимации показывает среднее отклонение расчетных значений от фактических:

Максимально допустимое значение 12–15%.

Мерой разброса зависимой переменной вокруг линии регрессии служит стандартная ошибка.Для всей совокупности наблюдаемых значений рассчитывается стандартная (среднеквадратическая) ошибка уравнения регрессии , которая представляет собой среднее квадратическое отклонение фактических значений у относительно теоретических значений, рассчитанных по уравнению регрессии у х .

,

где
– число степеней свободы;

m – число параметров уравнения регрессии (для уравнения прямой m =2).

Оценить величину средней квадратической ошибки можно сопоставив ее

а) со средним значение результативного признака у ;

б) со средним квадратическим отклонением признака у :

если
, то использование данного уравнения регрессии является целесообразным.

Отдельно оцениваются стандартные (среднеквадратические) ошибки параметров уравнения и индекса корреляции :

;
;
.

х – среднее квадратическое отклонение х .

Проверка значимости уравнения регрессии и показателей тесноты связи

Чтобы построенную модель можно было использовать для дальнейших экономических расчетов, проверки качества построенной модели недостаточно. Необходимо также проверить значимость (существенность) полученных с помощью метода наименьших квадратов оценок уравнения регрессии и показателя тесноты связи, т.е. необходимо проверить их на соответствие истинным параметрам взаимосвязи.

Это связано с тем, что исчисленные по ограниченной совокупности показатели сохраняют элемент случайности, свойственный индивидуальным значениям признака. Поэтому они являются лишь оценками определенной статистической закономерности. Необходима оценка степени точности и значимости (надежности, существенности) параметров регрессии. Под значимостью понимают вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков.

Проверка значимости – проверка предположения того, что параметры отличаются от нуля.

Оценка значимости парного уравнения регрессии сводится к проверке гипотез о значимости уравнения регрессии в целом и отдельных его параметров (a , b ), парного коэффициента детерминации или индекса корреляции.

В этом случае могут быть выдвинуты следующие основные гипотезы H 0 :

1)
– коэффициенты регрессии являются незначимыми и уравнение регрессии также является незначимым;

2)
– парный коэффициент детерминации незначим и уравнение регрессии также является незначимым.

Альтернативной (или обратной) выступают следующие гипотезы:

1)
– коэффициенты регрессии значимо отличаются от нуля, и построенное уравнение регрессии является значимым;

2)
– парный коэффициент детерминации значимо отличаются от нуля и построенное уравнение регрессии является значимым.

Проверка гипотезы о значимости уравнения парной регрессии

Для проверки гипотезы о статистической незначимости уравнения регрессии в целом и коэффициента детерминации используется F -критерий (критерий Фишера ):

или

где k 1 = m –1 ; k 2 = n m – число степеней свободы;

n – число единиц совокупности;

m – число параметров уравнения регрессии;

–факторная дисперсия;

–остаточная дисперсия.

Гипотеза проверяется следующим образом:

1) если фактическое (наблюдаемое) значение F -критерия больше критического (табличного) значения данного критерия
, то с вероятностью
основная гипотеза о незначимости уравнения регрессии или парного коэффициента детерминации отвергается, и уравнение регрессии признается значимым;

2) если фактическое (наблюдаемое) значение F-критерия меньше критического значения данного критерия
, то с вероятностью (
) основная гипотеза о незначимости уравнения регрессии или парного коэффициента детерминации принимается, и построенное уравнение регрессии признается незначимым.

Критическое значение F -критерия находится по соответствующим таблицам в зависимости от уровня значимости и числа степеней свободы
.

Число степеней свободы – показатель, который определяется как разность между объемом выборки (n ) и числом оцениваемых параметров по данной выборке (m ). Для модели парной регрессии число степеней свободы рассчитывается как
, так как по выборке оцениваются два параметра (
).

Уровень значимости – величина, определяемая
,

где – доверительная вероятность попадания оцениваемого параметра в доверительный интервал. Обычно принимается 0,95. Таким образом– это вероятность того, что оцениваемый параметр не попадет в доверительный интервал, равная 0,05 (5%) .

Тогда в случае оценки значимости уравнения парной регрессии критическое значение F-критерия вычисляется как
:

.

Проверка гипотезы о значимости параметров уравнения парной регрессии и индекса корреляции

При проверке значимости параметров уравнения (предположения того, что параметры отличаются от нуля) выдвигается основная гипотеза о незначимости полученных оценок (
. В качестве альтернативной (обратной) выдвигается гипотеза о значимости параметров уравнения (
).

Для проверки выдвинутых гипотез используется t -критерий (t -статистика) Стьюдента . Наблюдаемое значение t -критерия сравнивается со значением t -критерия, определяемого по таблице распределения Стьюдента (критическим значением). Критическое значение t -критерия
зависит от двух параметров: уровня значимостии числа степеней свободы
.

Выдвинутые гипотезы проверяются следующим образом:

1) если модуль наблюдаемого значения t -критерия больше критического значения t -критерия, т.е.
, то с вероятностью
основную гипотезу о незначимости параметров регрессии отвергают, т.е. параметры регрессии не равны 0;

2) если модуль наблюдаемого значения t -критерия меньше или равен критическому значению t -критерия, т.е.
, то с вероятностью
основная гипотеза о незначимости параметров регрессии принимается, т.е. параметры регрессии почти не отличаются от 0 или равны 0.

Оценка значимости коэффициентов регрессии с помощью критерия Стьюдента проводится путем сопоставления их оценок с величиной стандартной ошибки:

;

Для оценки статистической значимости индекса (линейного коэффициента) корреляции применяется также t -критерий Стьюдента.