Министерство образования и науки Российской Федерации

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

Национальный минерально-сырьевой университет «Горный»

Кафедра информатики и компьютерных технологий
Расчетно-графическое задание
Вариант 7
По дисциплине: Эконометрика

Тема: «построение уравнения множественной регрессии»

Выполнил: студент гр. ЭГ-13-2 _________ /Чакир А.Ю./

Проверил: доцент ____________ / Беляев В.В./

Санкт-Петербург

ЦЕЛЬ РАБОТЫ: закрепить и углубить знания, полученные при изучении курса, в области построения моделей множественной регрессии.

ЗАДАНИЕ: изучить влияние факторов, определяющих цену строящегося жилья в Санкт-Петербурге.

ИСХОДНЫЕ ДАННЫЕ

Общая площадь квартиры, кв.м

Жилая площадь квартиры, кв.м

Площадь кухни, кв.м

Наличие балкона

Срок до окончания строительства, мес

Цена квартиры, тыс.долл.

Рис. 1 Фрагмент таблицы исходных данных

ТРЕБУЕТСЯ

1. Определить факторы, формирующие цену квартир в строящихся домах в Санкт-Петербурге.

2. Построить уравнение регрессии, характеризующее зависимость цены от всех факторов в линейной форме. Оценить адекватность полученной модели. Составить матрицу парных коэффициентов корреляции исходных переменных и проанализировать ее.

3. Построить модельв линейной форме методом включения. Определить, какие факторы значимо воздействуют на формирование цены квартиры в этой модели.

4. Построить графики остатков, выполнить визуальный анализ. Провести тестирование ошибок (остатков) уравнения множественной регрессии на гетероскедастичность, применив тест Гельфельда-Квандта.

5. Оценить автокорреляцию остатков с помощью статистики Дарбина-Уотсона.

6. Написать уравнение множественной регрессии в стандартизованном масштабе, пояснить экономический смысл его параметров.

7. Вычислить средние частные коэффициенты эластичности для факторов, вошедших в модель. Пояснить их экономический смысл.

8. Пользуясь уравнением регрессии вычислить прогнозные значения стоимости объекта недвижимости, если значения значимых факторов равны, где и максимальное и минимальное значения факторов в таблице исходных данных. Вычислить точечный и интервальный прогноз.

ХОД РАБОТЫ

матрица корреляция уравнение регрессия

Предположим, что на стоимость строящего в Санкт-Петербурге жилья влияют все перечисленные в таблице факторы, т.е. общая и жилая площадь квартиры, площадь кухни, наличие балкона и число месяцев до окончания срока строительства. Наличие балкона - качественная характеристика, поэтому влияние этой характеристики на стоимость жилья учтем с помощью фиктивной переменной, которая будет принимать значение 0, если балкона нет и 1 - если балкон есть.

Введем следующие переменные:

y - цена квартиры, тыс.долл.

x1 - общая площадь квартиры (кв.м)

x2 - жилая площадь квартиры (кв.м)

x3 - площадь кухни (кв.м)

x4 - наличие балкона (1- есть, 0 - нет)

x5 - число месяцев до окончания срока строительства.

Пользуясь надстройкой «Анализ данных - Регрессия» построим уравнение регрессии.

Рис. 2 Регрессионная статистика

Получили уравнение

y=1,062+0,513 x1-0,04 x2+0,08 x3+0,514 x4-0,426 x5

Очевидно, что полученное уравнение противоречит практике, коэффициент при x2 отрицательный, то есть увеличение жилой площади уменьшает общую стоимость квартиры.

Проанализируем межфакторную корреляцию. Для получения матрицы парных линейных коэффициентов корреляции воспользуемся надстройкой «Анализ данных - Корреляция».

Рис. 3 Корреляционный анализ

Значения коэффициентов линейной парной корреляции высоки; , что говорит о взаимозависимости этих факторов, то есть о мультиколлинеарности.

Полученное уравнение множественной регрессии, включающее весь имеющийся набор факторов, не адекватно. Возможная причина - мультиколлинеарность факторов, квлюченных в модель.

Построение модели методом включения - это пошаговый отбор переменных.

На 1-м шаге (k=1) по наибольшему значению коэффициента корреляции с y найдем наиболее информативную переменную - это x1.

Так как при k=1 величина R2 совпадает с квадратом обычного (парного) коэффициента корреляции R2 = r2(y,x), из матрицы корреляций находим наибольший коэффициент детерминации для набора однофакторных регрессионных моделей:

Аналогичный результат можно получить последовательно строя уравнения регрессии для зависимостей y-xj с помощью табличной функции ЛИНЕЙН.

Рис. 4 Нахождение информативное переменной с помощью функции ЛИНЕЙН

Таким образом, в классе однофакторных регрессионных моделей наиболее информативным предиктором (предсказателем) является x1 - общая площадь квартиры. Включим эту переменную в выстраиваемую методом включения модель.

Вычислим скорректированный коэффициент детерминации:

где k-количество факторов.

2-й шаг (k=2). Среди всевозможных пар (х1 , хj), j = 2, 3, 4, 5, выбирается наиболее информативная пара:

Последовательно применяем табличную функцию ЛИНЕЙН к различным парам:

(х1 , х2) = 0.8684, (х1 , х3) = 0.8709,

(х1 , х4) = 0.8681, (х1 , х5) = 0.9147.

Очевидно, что наиболее информативной парой является (х1, х5), которая дает

С включением параметра х5 коэффициент детерминации вырос, следовательно, это правильное решение. Линейное уравнение с учетом факторов х1 и х5 имеет вид:

y (х1, х5) = 1,9787 + 0.4971 х1 - 0,4286 х5

Используя надстройку «Регрессия», проведем анализ значимости найденных коэффициентов.

Рис. 5 Фрагмент отчета регрессии по двум переменным

Столбец t-статистика содержит наблюдаемые значения t-критерия Стьюдента. Столбец «P-значение» используется для проверки гипотезы (о незначимости i-го коэффициента регрессии) с помощью критерия Стьюдента. Столбец содержит вероятности того, что в силу случайных причин принимает это или большее значение, хотя коэффициент регрессии bi =0. «P-значение» сравнивается с выбранным уровнем значимости б, если «P-значение» больше или равно б, то гипотеза подтверждается и коэффициент незначим, в противоположном случае коэффициент существенно отличен от 0, т.е. значим. Рассмотрев столбец «P-значение», приходим к выводу: два коэффициента при независимых переменных (х1 , х5) отличаются от нуля при уровне значимости = 0.05. Коэффициент «Y-пересечение» (1,9787) не значим, и его следует исключить из уравнения. Таким образом, уравнение фактически имеет вид:

3-й шаг (k = 3). Попытаемся добавить третью переменную в наше уравнение регрессии. Среди всевозможных троек (х1 , х5 , хj), j = 2, 3, 4, выбираем аналогично наиболее информативную: (х1, х5, х2), которая дает (3) = 0.9139, что меньше, чем (2) = 0.9147.

Рис. 6 Применение функции ЛИНЕЙН для нахождения третьего фактора

Следовательно, третью переменную в модель включать нецелесообразно, т.к. она понижает значение. Этот же результат получим, применив надстройку «Регрессия» Отметим, что коэффициент при x2 не значим при уровне значимости 0,05.

Рис. 7 Фрагмент отчета регрессии по трем переменным

Уравнение

y (х1, х5) = 0.4971 х1 - 0,4286 х5

адекватно описывает зависимость стоимости квартиры от влияющих на нее факторов, и может быть использовано для анализа и прогноза. Все коэффициенты при неизвестных в нем значимы.

Для применения метода наименьших квадратов требуется, чтобы дисперсия остатков была гомоскедастичнной. Это значит, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность.

Рассмотрим графики остатков для переменных x1 и x5, полученные при построении уравнения регрессии с помощью надстройки «Анализ данных - Регрессия» (рис.8).

Визуальный анализ остатков (ошибок аппроксимации) по графикам не может однозначно исключить наличие гетероскедастичности.

Рис. 8 Графики остатков

Нарушение гомоскедастичности может быть выявлено с помощью метода (теста) Гельфельда-Квандта. Предварительно все наблюдения упорядочим по одному из факторов, например, по х1.

Для применения теста Гельфельда-Квандта необходимо определить число исключаемых центральных наблюдений С. Из экспериментальных расчетов, проведенных авторами метода, рекомендовано при n=30 принимать C=8, а при n=60, - соответственно, С=16.

В задании при n= 69 было исключено 17 наблюдений (С=17). Тогда в каждой группе будет по 26 наблюдений

Рис. 9 Организация данных при использовании теста Гельфельда-Квандта (часть строк скрыта). Строки с 27 по 43 (#nn) исключены из рассмотрения

Для первой группы наблюдений строим уравнение линейной регрессии с помощью функции ЛИНЕЙН. Определяем остаточную сумму квадратов (S1) для первой группы (рис.10)

Рис. 10

Для второй группы наблюдений также строим уравнение линейной регрессии с помощью функции ЛИНЕЙН. Определяем остаточную сумму квадратов (S2) для этой группы (рис.11)

Рис. 11

Fкрит=FРАСПОБР(0.05;23;23)=2.01. Fнабл > Fкрит, следовательно, гипотеза о гомоскедастичности остатков отвергается. Значит, имеет место гетероскедастичность.

Для решения данной проблемы введем новую величину z равную стоимости квадратного метра общей площади квартиры.

Для первой группы наблюдений строим уравнение линейной регрессии с помощью функции ЛИНЕЙН. Определяем остаточную сумму квадратов (S1) для первой группы (рис.12)

Рис. 12 Результат работы функции ЛИНЕЙН для первой группы

Для второй группы наблюдений также строим уравнение линейной регрессии с помощью функции ЛИНЕЙН. Определяем остаточную сумму квадратов (S2) для этой группы (рис.13)

Рис. 13 Результат работы функции ЛИНЕЙН для второй группы

Fкрит=FРАСПОБР(0.05;23;23)=2.01. Fнабл < Fкрит, следовательно, гипотеза о гомоскедастичности остатков подтверждается.

Так как ошибки аппроксимации гомоскедастичны, применение МНК по данному условию корректно.

Для применения МНК требуется, чтобы значения остатков были распределены независимо друг от друга. Если это не так, то говорят, что остатки автокоррелированы.

Тестом на простейшую автокорреляцию ошибок (первого порядка) является тест Дарбина-Уотсона (Durbin-Watson).

Рис. 14 Организация данных для вычисления статистики Дарбина-Уотсона в Excel (часть строк скрыта)

Вычислим значение статистики d по формуле:

По таблице для n = 26 и p=3 находим критические значения DU=1.67 и DL=1.55. Поскольку, остатки не коррелированы.

Так как значения остатков были распределены независимо друг от друга, применение МНК по данному условию корректно.

Рис. 15 Распределение остатков

Выведем уравнение множественной регрессии в стандартизованном масштабе. Определим стандартизованные переменные:

Рис. 16 Отчет "Описательная статистика"

Для определения коэффициентов стандартизованного уравнения множественной регрессии можно использовать МНК или воспользоваться связью стандартизованных коэффициентов с полученными ранее коэффициентами множественной регрессии

Таким образом, уравнение множественной регрессии в стандартизованном масштабе имеет вид:

В силу того, что стандартизованные переменные центрированные и нормированы, стандартизованные коэффициенты можно сравнивать между собой, т.е. сравнивать факторы по силе воздействия. В нашем случае влияние первого фактора на результат более чем в четыре раза (0.95/0.21> 4) превышает влияние пятого фактора.

Рассчитаем средние частные коэффициенты эластичности, воспользовавшись результатами работы надстройки «Описательная статистика».

При изменении фактора х1 на один процент результат возрастет на 1.02%, при неизменных прочих параметрах. Аналогично, при изменении фактора х5 на один процент значение результирующего фактора уменьшится на 0.08%, при неизменных прочих параметрах.

По формуле найдем точки, в которых необходимо построить прогноз.

Вычислим точечный прогноз путем подстановки найденных значений в уравнение:

y (х1, х5) = 0.4971*117,39 - 0,4286 *19,2=50,129

Для получения интервальной оценки необходимо воспользоваться формулой:

где-стандартная ошибка групповой средней

Вектор значений факторов, определяющий точку, в которой строим прогноз;

Матрица, по которой было построено уравнение.

Стандартное отклонение остаточной дисперсии или стандартная ошибка уравнения регрессии.

Рис. 17 Результаты прогнозирования

Интервальной оценкой является доверительный интервал с надежностью 95% тыс.долл.

· Уравнение y (х1, х5) = 0.4971 х1 - 0,4286 х5 адекватно описывает зависимость стоимости квартиры от влияющих на нее факторов и может быть использовано для анализа и прогноза. Все коэффициенты в нем значимы.

· Увеличение общей площади квартиры на 1 м2 приводит к увеличению стоимости квартиры на величину в среднем на 497$, отдаление срока сдачи на 1 месяц снижает стоимость квартиры на 428,6$. Влияние прочих факторов несущественно

· Влияние общей площади квартиры на ее стоимость более чем в четыре раза превышает влияние срока сдачи объекта на стоимость

· При изменении цены общей площади квартиры на 1% стоимость квартиры возрастет на 1.02%, при неизменных прочих параметрах. Аналогично, при изменении срока сдачи квартиры на один процент стоимость квартиры упадет на 0.08%, при неизменных прочих параметрах.

· Проверка корректности применения МНК показала, что ошибки аппроксимации (значения остатков) гомоскедастичны и распределены независимо друг от друга.

· Стоимость квартиры площадью 117,39 кв.м со сроком сдачи через 19.2 мес с вероятностью 95 % будет лежать в пределах тыс.долл.

Подобные документы

    Построение обобщенной линейной модели множественной регрессии, ее суть; теорема Айткена. Понятие гетероскедастичности, ее обнаружение и методы смягчения проблемы: тест ранговой корреляции Спирмена, метод Голдфелда-Квандта, тесты Глейзера, Парка, Уайта.

    контрольная работа , добавлен 28.07.2013

    Описание классической линейной модели множественной регрессии. Анализ матрицы парных коэффициентов корреляции на наличие мультиколлинеарности. Оценка модели парной регрессии с наиболее значимым фактором. Графическое построение интервала прогноза.

    курсовая работа , добавлен 17.01.2016

    Построение линейной модели и уравнения регрессии зависимости цены на квартиры на вторичном рынке жилья в Москве в 2006 г. от влияющих факторов. Методика составления матрицы парных коэффициентов корреляции. Экономическая интерпретация модели регрессии.

    лабораторная работа , добавлен 25.05.2009

    Расчет параметров A и B уравнения линейной регрессии. Оценка полученной точности аппроксимации. Построение однофакторной регрессии. Дисперсия математического ожидания прогнозируемой величины. Тестирование ошибок уравнения множественной регрессии.

    контрольная работа , добавлен 19.04.2013

    Основы построения и тестирования адекватности экономических моделей множественной регрессии, проблема их спецификации и последствия ошибок. Методическое и информационное обеспечение множественной регрессии. Числовой пример модели множественной регрессии.

    курсовая работа , добавлен 10.02.2014

    Оценка корреляционной матрицы факторных признаков. Оценки собственных чисел матрицы парных коэффициентов корреляции. Анализ полученного уравнения регрессии, определение значимости уравнения и коэффициентов регрессии, их экономическая интерпретация.

    контрольная работа , добавлен 29.06.2013

    Определение параметров линейной регрессии и корреляции с использованием формул и табличного процессора MS Excel. Методика расчета показателей парной нелинейной регрессии и корреляции. Вычисление значений линейных коэффициентов множественной детерминации.

    контрольная работа , добавлен 28.07.2012

    Построение модели множественной линейной регрессии по заданным параметрам. Оценка качества модели по коэффициентам детерминации и множественной корреляции. Определение значимости уравнения регрессии на основе F-критерия Фишера и t-критерия Стьюдента.

    контрольная работа , добавлен 01.12.2013

    Расчет матрицы парных коэффициентов корреляции и статистической значимости коэффициентов регрессии. Оценка статистической значимости параметров регрессионной модели с помощью t-критерия. Уравнение множественной регрессии со статистически факторами.

    лабораторная работа , добавлен 05.12.2010

    Расчет линейного коэффициента парной и частной корреляции. Статистическая значимость параметров регрессии и корреляции. Анализ корреляционного поля данных. Точность прогноза, расчет ошибки и доверительный интервал. Коэффициент множественной детерминации.

Проблемы множественного корреляционно-регрессионного анализа и моделирования обычно подробно изучаются в специальном курсе. В курсе «Общая теория статистики» рассматриваются только самые общие вопросы этой сложной проблемы и дается начальное представление о методике построения уравнения множественной регрессии и показателей связи. Рассмотрим линейную форму многофакторных связей не только как наиболее простую, но и как форму, предусмотренную пакетами прикладных программ для ПЭВМ. Если же связь отдельного фактора с результативным признаком не является линейной, то проводят линеаризацию уравнения путем замены или преобразования величины факторного признака.

Общий вид многофакторного уравнения регрессии следующий:


9.11. Меры тесноты связей в многофакторной системе

Многофакторная система требует уже не одного, а множества показателей тесноты связей, имеющих разный смысл и применение. Основой измерения связей является матри на парных коэффициентов корреляции (табл. 9.9).

По этой матрице можно судить о тесноте связи факторов с результативным признаком и между собой. Хотя все эти показатели относятся к парным связям, все же матрицу молено использовать для предварительного отбора факторов для включения их в уравнение регрессии. Не рекомендуется включать в уравнение факторы, слабо связанные с результативными признаками, но тесно связанные с другими факто-

Вернемся к табл. 9.11. Дисперсионный анализ системы связей предназначен для оценки того, насколько надежно доказывают исходные данные наличие связи результативного признака со всеми факторами, входящими в уравнение. Для этого сравниваются дисперсии у - объясненная и остаточная: суммы соответствующих квадратов отклонений, прнхо-

379

381

9.13. Корреляционно-регрессионные модели и их применение в анализе и прогнозе

Корреляционно-регрессионной моделью (КРМ) системы взаимосвязанных признаков является такое уравнение регрессии, которое включает основные факторы, влияющие на вариацию результативного признака, обладает высоким (не ниже 0,5) коэффициентом детерминации и коэффициентами регрессии, интерпретируемыми в соответствии с теоретическим знанием о природе связей в изучаемой системе.

Приведенное определение КРМ включает достаточно строгие условия: далеко не всякое уравнение регрессии можно считать моделью. В частности, полученное выше по 16 хозяйствам уравнение не отвечает последнему требованию из-за противоречащего экономике сельского хозяйства знака при факторе х2 - доля пашни. Однако в учебных целях будем рассматривать его как модель.

1. Признаки-факторы должны находиться в причинной связи с результативным признаком (следствием). Поэтому недопустимо, например, в модель себестоимости у вводить в качестве одного из факторов xj коэффициент рентабельности, хотя включение такого «фактора» значительно повысит коэффициент детерминации.

2. Признаки-факторы не должны быть составными частями результативного признака или его функциями.

3. Признаки-факторы не должны дублировать друг друга, т.е. быть коллинеарными (с коэффициентом корреляции более 0,8). Так, не следует в модель производительности труда включать энерго- и фондовооруженность рабочих, поскольку эти факторы тесно связаны друг с другом в большинстве объектов.

4. Не следует включать в модель факторы разных уровней иерархии, т.е. фактор ближайшего порядка и его субфакторы. Например, в модель себестоимости зерна не следует включать и урожайность зерновых культур, и дозу удобрений под них или затраты на обработку гектара, показатели качества семян, плодородия почвы, т.е. субфакторы самой урожайности.

5. Желательно, чтобы для результативного признака и факторов соблюдалось единство единицы совокупности, к которой они отнесены. Например, если у - валовой доход предприятия, то и все факторы должны относиться к предприятию: стоимость производственных фондов, уровень специализации, численность работников и т.д. Если же у - средняя зарплата рабочего на предприятии, то факторы должны относиться к рабочему: разряд или классность, стаж работы, возраст, уровень образования, энерговооруженность и т.д. Правило это некатегорическое, в модель заработной платы рабочего можно включить, к примеру, и уровень специализации предприятия. Вместе с тем нельзя забывать о предыдущей рекомендации.

6. Математическая форма уравнения регрессии должна соответствовать логике связи факторов с результатом в реальном объекте. Например, такие факторы урожайности, как дозы разных удобрений, уровень плодородия, число прополок и т.п., создают прибавки величины урожайности, малозавися-Аше друг от друга; урожайность может существовать и без любого из этих факторов. Такому характеру связей отвечает аддитивное уравнение регрессии:

Первое слагаемое в правой части равенства - это отклонение, которое возникает за счет отличия индивидуальных значений факторов у данной единицы совокупности от их средних значений по совокупности. Его можно назвать эффектом факторообеспеченности. Второе слагаемое - отклонение, которое возникает за счет не входящих в модель факторов и отличия индивидуальной эффективности факторов у данной единицы совокупности от средней эффективности факторов в совокупности, измеряемой коэффициентами ус-

Таблица 9.12 Анализ факторообеспеченности и фактороотдачи по регрессионной модели уровня валового дохода

ловно-чистой регрессии. Его можно назвать эффектом фактороотдачи.

Пример. Рассмотрим расчет и анализ отклонений по ранее построенной модели уровня валового дохода в 16 хозяйствах. Знаки тех и других отклонений 8 раз совпадают и 8 раз не совпадают. Коэффициент корреляции рангов отклонений двух видов составил 0,156. Это означает, что связь вариации факторообеспеченности с вариацией фактороотдачи слабая, несущественная (табл. 9.12).

Обратим внимание на хозяйство № 15 с высокой факто-

рообеспеченностью (15-е место) и самой худшей фактороот-

дачей (1-й ранг), из-за которой хозяйство недополучило по

1 22 руб. дохода с 1 га. Напротив, хозяйство № 5 имеет фак-

торообеспеченность ниже средней, но благодаря более эффективному использованию факторов получило на 125 руб. дохода с 1 га больше, чем было бы получено при средней по совокупности эффективности факторов. Более высокая эффективность фактора х\ (затраты труда) может означать более высокую квалификацию работников и большую заинтересованность в качестве выполняемой работы. Более высокая эффективность фактора хз с точки зрения доходности может заключаться в высоком качестве молока (жирность, охлажден-ность), благодаря которому оно реализовано по более высоким ценам. Коэффициент регрессии при х2, как уже отмечено, экономически не обоснован.

Использование регрессионной модели для прогнозирования состоит в подстановке в уравнение регрессии ожидаемых значений факторных признаков для расчета точечного прогноза результативного признака или (и) его доверительного интервала с заданной вероятностью, как уже сказано в 9.6. Сформулированные там же ограничения прогнозирования по уравнению регрессии сохраняют свое значение и для многофакторных моделей. Кроме того, необходимо соблюдать системность между подставляемыми в модель значениями факторных признаков.

Формулы расчета средних ошибок оценки положения гиперплоскости регрессии в заданной многомерной точке и для индивидуальной величины результативного признака весьма сложны, требуют применения матричной алгебры и здесь не рассматриваются. Средняя ошибка оценки значения результативного признака, рассчитанная по программе ПЭВМ «Mi-crostat» и приведенная в табл. 9.7, равна 79,2 руб. на 1 га. Это лишь среднее квадратическое отклонение фактических значений дохода от расчетных по уравнению, не учитывающее ошибки положения самой гиперплоскости регрессии при экстраполяции значений факторных признаков. Поэтому ограничимся точечными прогнозами в нескольких вариантах (табл. 9.13).

Для сравнения прогнозов с базисным уровнем средних по совокупности значений признаков введена первая строка таблицы. Краткосрочный прогноз рассчитан на малые изменения факторов за короткое время и снижение трудообеспечен-ности.

Таблица 9.13 Прогнозы валового дохода по регрессионной модели

Результат неблагоприятен: доход снижается. Долгосрочный прогноз А - «осторожный», он предполагает весьма умеренный прогресс факторов и соответственно небольшое увеличение дохода. Вариант Б - «оптимистический», рассчитан на существенное изменение факторов. Вариант 5 построен по способу, которым Агафья Тихоновна в комедии Н. В. Гоголя «Женитьба» мысленно конструирует портрет «идеального жениха»: нос взять от одного претендента, подбородок от другого, рост от третьего, характер от четвертого; вот если бы соединить все нравящиеся ей качества в одном человеке, она бы не колеблясь вышла замуж. Так и при прогнозировании мы объединяем лучшие (с точки зрения модели дохода) наблюдаемые значения факторов: берем значение Х[ от хозяйства № 10, значение х2 от хозяйства № 2, значение х3 от хозяйства № 16. Все эти значения факторов уже существуют реально в изучаемой совокупности, они не «ожидаемые», не «взятые с потолка». Это хорошо. Однако могут ли эти значения факторов сочетаться в одном предприятии, системны ли эти значения? Решение данного вопроса выходит за рамки статистики, оно требует конкретных знаний об объекте прогнозирования.

Если, кроме количественных факторов, при многофакторном регрессионном анализе в уравнение включается и неколичественный, то применяют следующую методику: наличие неколичественного фактора у единиц совокупности обозначают единицей, его отсутствие - нулем, т.е. вводят так назы-

Число фиктивных переменных должно быть на единицу меньше числа градаций качественного (неколичественного) фактора. С помощью данного приема можно измерять влияние уровня образования, местожительства, типа жилища и других социальных или природных, неизмеряемых количественно факторов, изолируя их от влияния количественных факторов.

РЕЗЮМЕ

Связи, которые проявляются не в каждом отдельном случае, а лишь в совокупности данных, называются статистическими. Они выражаются в том, что при изменении значения фактора х изменяется и условное распределение результативного признака у: разным значениям одной переменной (фактора х) соответствуют разные распределения другой переменной (результата у).

Корреляционная связь - частный случай статистической связи, при котором разным значениям одной переменной х соответствуют разные средние значения переменной у.

Корреляционная связь предполагает, что изучаемые переменные имеют количественное выражение.

Статистическая связь - более широкое понятие, оно не включает ограничений на уровень измерения переменных. Переменные, связь между которыми изучается, могут быть как количественными, так и неколичественными.

Статистические связи отражают сопряженность в изменении признаков х и у, которая может быть вызвана не причинными отношениями, а так называемой ложной корреляцией. Например, в совместных изменениях х и у обнаруживается определенная закономерность, но она вызвана не влиянием

390

Математическое описание корреляционной зависимости результативной переменной от нескольких факторных переменных называется уравнением множественной регрессии. Параметры уравнения регрессии оцениваются методом наименьших квадратов (МНК). Уравнение регрессии должно быть линейным по параметрам.

Если уравнение регрессии отражает нелинейность связи между переменными, то регрессия приводится к линейному виду (линеаризуется) путем замены переменных или их логарифмирования.

Вводя в уравнение регрессии фиктивные переменные, можно учесть влияние неколичественных переменных, изолируя их от влияния количественных факторов.

Если коэффициент детерминации близок к единице, то с помощью уравнения регрессии можно предсказать, каким будет значение зависимой переменной для того или иного ожидаемого значения одной или нескольких независимых переменных.

1. Елисеева И. И. Статистические методы измерения связей. - Л.: Изд-во Ленингр. ун-та, 1982.

2. Елисеева И. И., Рукавишников В. О. Логика прикладного статистического анализа. - М.: Финансы и статистика, 1982.

3. Крастинь О. П. Разработка и интерпретация моделей корреляционных связей в экономике. - Рига: Зинатне, 1983.

4. Кулаичев А. П. Методы и средства анализа данных в среде Windows. Stadia 6.0. - М.: НПО «Информатика и компьютеры», 1996.

5. Статистическое моделирование и прогнозирование: Учеб. пособие / Под ред. А. Г. Гранберга. - М.: Финансы и статистика, 1990.

6. Ферстер Э, Ренц Б. Методы корреляционного и регрессионного анализа. Руководство для экономистов: Пер. с нем. - М.: Финансы и статистика, 1983.

1. Основные определения и формулы

Множественная регрессия - регрессия между переменными и т.е. модель вида:

где - зависимая переменная (результативный признак);

- независимые объясняющие переменные;

Возмущение или стохастическая переменная, включающая влияние неучтенных в модели факторов;

Число параметров при переменных

Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Уравнение множественной линейной регрессии в случае независимых переменных имеет вид а в случае двух независимых переменных - (двухфакторное уравнение).

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов . Строится система нормальных уравнений:

Решение этой системы позволяет получить оценки параметров регрессии с помощью метода определителей

где - определитель системы;

- частные определители, которые получаются путем замены соответствующего столбца матрицы определителя системы данными правой части системы.

Для двухфакторного уравнения коэффициенты множественной линейной регрессии можно вычислить по формулам:

Частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности :

Средние коэффициентами эластичности показывают на сколько процентов в среднем изменится результат при изменении соответствующего фактора на 1%:

Их можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат.

Тесноту совместного влияния факторов на результат оценивает коэффиц и ент (индекс) множественной корреляции :

Величина индекса множественной корреляции лежит в пределах от 0 до 1 и должна быть больше или равна максимальному парному индексу корреляции:

Чем ближе значение индекса множественной корреляции к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

Сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности (величина индекса множественной корреляции существенно отличается от индекса парной корреляции) включения в уравнение регрессии того или иного фактора.

При линейной зависимости совокупный коэффициент множественной ко р реляции определяется через матрицу парных коэффициентов корреляции:

где - определитель матрицы парных коэффициентов корреляции;

- определитель матрицы межфакторной корреляции.

Частны е коэффициент ы корреляции характеризуют тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Если вычисляется, например, (частный коэффициент корреляции между и при фиксированном влиянии ), это означает, что определяется количественная мера линейной зависимости между и которая будет иметь место, если устранить влияние на эти признаки фактора

Частные коэффициенты корреляции, измеряющие влияние на фактора при неизменном уровне других факторов, можно определить как:

или по рекуррентной формуле:

Для двухфакторного уравнения:

или

Частные коэффициенты корреляции изменяются в пределах от -1 до +1.

Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции получится меньше, чем соответствующий парныйкоэффициент значит взаимосвязь признаков и в некоторой степени обусловлена воздействием на них фиксируемой переменной И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная ослабляет своим воздействием связь и

Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка.

Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент мн о жественной корреляции :

Качество построенной модели в целом оценивает коэффициент (индекс) множественной детерминации , который рассчитывается как квадрат индекса множественной корреляции: Индекс множественной детерминации фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, не учтенных в модели факторов, оценивается как

Если число параметров при близко к объему наблюдений, то коэффициент множественной корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможногопреувеличения тесноты связи, используется скорректированный индекс множественной корреляции , который содержит поправку на число степеней свободы:

Чем больше величина тем сильнее различия и

Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным =--2.

Значимость уравнения множественной регрессии в целом , так же как и в парной регрессии, оценивается с помощью - критерия Фишера :

Мерой для оценки включения фактора в модель служит частный -критерий . В общем виде для фактора частный -критерий определяется как

Для двухфакторного уравнения частные -критерии имеют вид:

Если фактическое значение превышает табличное, то дополнительное включение фактора в модель статистически оправданно и коэффициент чистой регрессии при факторе статистически значим. Если же фактическое значение меньше табличного, то фактор нецелесообразно включать в модель, а коэффициент регрессии при данном факторе в этом случае статистически незначим.

Для оценки значимости коэффициентов чистой регрессии по -критерию Стьюдента используется формула:

где - коэффициент чистой регрессии при факторе

- средняя квадратическая (стандартная) ошибка коэффициента регрессии которая может быть определена по формуле:

При дополнительном включении в регрессию нового фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если это не так, то включаемый в анализ новый фактор не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по -критерию Стьюдента.

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Для оценки мультиколлинеарности факторов может использоваться опред е литель матрицы между факторами . Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель, тем меньше мультиколлинеарность факторов.

Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность . При нарушении гомоскедастичности выполняются неравенства

Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 9.22).

Рис. 9.22 . Примеры гетероскедастичности:

а) дисперсия остатков растет по мере увеличения

б) дисперсия остатков достигает максимальной величины при средних значениях переменной и уменьшается при минимальных и максимальных значениях

в) максимальная дисперсия остатков при малых значениях и дисперсия остатков однородна по мере увеличения значений

Для проверки выборки на гетероскедастичность можно использовать метод Гольдфельда-Квандта (при малом объеме выборки) или критерий Бартлетта (при большом объеме выборки).

Последовательность применения теста Гольдфельда-Квандта :

1) Упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность.

2) Исключить из рассмотрения центральных наблюдений. При этом где - число оцениваемых параметров. Из экспериментальных расчетов для случая однофакторного уравнения регрессии рекомендовано при =30 принимать =8, а при =60 соответственно =16.

3) Разделить совокупность из наблюдений на две группы (соответственно с малыми и большими значениями фактора ) и определить по каждой из групп уравнение регрессии.

4) Вычислить остаточную сумму квадратов для первой и второй групп и найти их отношение где При выполнении нулевой гипотезы о гомоскедастичности отношение будет удовлетворять -критерию Фишера со степенями свободы для каждой остаточной суммы квадратов. Чем больше величина превышает тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Если необходимо включить в модель факторы, имеющие два или более качественных уровней (пол, профессия, образование, климатические условия, принадлежность к определенному региону и т.д.), то им должны быть присвоены цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные называют фиктивными (и с кусственными) переменными .

К оэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменных значениях остальных параметров. Значимость влияния фиктивной переменной проверяется с помощью -критерия Стьюдента.

2. Решение типовых задач

Пример 9. 2. По 15 предприятиям отрасли (табл. 9.4) изучается зависимость затрат на выпуск продукции (тыс. ден. ед.) от объема произведенной продукции (тыс. ед.) и расходов на сырье (тыс. ден. ед). Необходимо:

1) Построить уравнение множественной линейной регрессии.

2) Вычислить и интерпретировать:

Средние коэффициенты эластичности;

Парные коэффициенты корреляции, оценить их значимость на уровне 0,05;

Частные коэффициенты корреляции;

Коэффициент множественной корреляции, множественный коэффициент детерминации, скорректированный коэффициент детерминации.

3) Оценить надежность построенного уравнения регрессии и целесообразность включения фактора после фактора и после

Таблица 9.4

x 1

x 2

Решение:

1) В Excel составим вспомогательную таблицу рис. 9.23.

Рис. 9.23 . Расчетная таблица многофакторной регрессии.

С помощью встроенных функций вычислим: =345,5; =13838,89; =8515,78; =219,315; =9,37; =6558,08.

Затем найдем коэффициенты множественной линейной регрессии и оформим вывод результатов как на рис. 9.24.

Рис. 9.24 . Решение задачи в MS Excel

Для вычисления значения коэффициента используем формулы

Формулы для вычисления параметров заносим в ячейки Е 20 , Е 2 1, Е 2 2. Так длявычисления параметра b 1 в Е 20 поместим формулу =(B20*B24-B21*B22)/(B23*B24-B22^2) и получим 29,83. Аналогично получаем значения =0,301 и Коэффициент =-31,25 (рис. 9.25.).

Рис. 9.25 . Вычисление параметров уравнения множественной регрессии (в с т роке формул формула для расчета b 2) .

Уравнение множественной линейной регрессии примет вид:

31,25+29,83+0,301

Таким образом, при увеличении объема произведенной продукции на 1 тыс. ед. затраты на выпуск этой продукции в среднем увеличатся на 29,83 тыс. ден. ед., а при увеличении расходов на сырье на 1 тыс. ден. ед. затраты увеличатся в среднем на 0,301 тыс. ден. ед.

2) Для вычисления средних коэффициентов эластичности воспользуемся формулой: Вычисляем: =0,884 и =0,184. Т.е. увеличение только объема произведенной продукции (от своего среднего значения) или только расходов на сырье на 1% увеличивает в среднем затраты на выпуск продукции на 0,884% или 0,184% соответственно. Таким образом, фактор оказывает большее влияние на результат, чем фактор

Для вычисления парных коэффициентов корреляции воспользуемся функцией «КОРРЕЛ» рис. 9.26.

Рис. 9.26 . Вычисление парных коэффициентов корреляции

Значения парных коэффициентов корреляции указывают на весьма тесную связь с и на тесную связь с В то же время межфакторная связь очень сильная (=0,88>0,7), что говорит о том, что один из факторов является неинформативным, т.е. в модель необходимо включать или или

З начимост ь парных коэффициентов корреляции оценим с помощью -критерия Стьюдента. =2,1604 определяем с помощью встроенной статистической функции СТЬЮДРАСПОБР взяв =0,05 и =-2=13.

Фактическое значение -критерия Стьюдента для каждого парного коэффициента определим по формулам: . Результат расчета представлен на рис. 9.27.

Рис. 9.27 . Результат расчета фактических значений -критерия Стьюдента

Получим =12,278; =7,1896; =6,845.

Так как фактические значения -статистики превосходят табличные, то парные коэффициенты корреляции не случайно отличаются от нуля, а статистически значимы.

Получим =0,81; =0,34; =0,21. Таким образом, фактор оказывает более сильное влияние на результат, чем

При сравнении значений коэффициентов парной и частной корреляции приходим к выводу, что из-за сильной межфакторной связи коэффициенты парной и частной корреляции отличаются довольно значительно.

Коэффициент множественной корреляции

Следовательно, зависимость от и характеризуется как очень тесная, в которой =93% вариации затрат на выпуск продукции определяются вариацией учтенных в модели факторов: объема произведенной продукции и расходов на сырье. Прочие факторы, не включенные в модель, составляют соответственно 7% от общей вариации

Скорректированный коэффициент множественной детерминации =0,9182 указывает на тесную связь между результатом и признаками.

Рис. 9.28 . Результаты расчета частных коэффициентов корреляции и коэфф и циента множественной корреляции

3) Оценим надежность уравнения регрессии в целом с помощью -критерия Фишера. Вычислим . =3,8853 определяем взяв =0,05, =2, =15-2-1=12 помощью встроенной статистической функции FРАСПОБР с такими же параметрами.

Так как фактическое значение больше табличного, то с вероятностью 95% делаем заключение о статистической значимости уравнения множественной линейной регрессии в целом.

Оценим целесообразность включения фактора после фактора и после с помощью частного -критерия Фишера по формулам

; .

Для этого в ячейку B32 заносим формулу для расчета F x 1 «=(B28- H24^2)*(15-3)/(1-B28) », а в ячейку B 33 формулу для расчета F x 2 «=(B28-H23^2)*(15-3)/(1-B28) », результат вычисления F x 1 = 22,4127, F x 2 = 1,5958. Табличное значение критерия Фишера определим с помощью встроенной функции FРАСПОБР с параметрами =0,05, =1, =12 «=FРАСПОБР(0,05; 1 ;12) », результат - =4,747. Так как =22,4127>=4,747, а =1,5958<=4,747, то включение фактора в модель статистически оправдано и коэффициент чистой регрессии статистически значим, а дополнительное включение фактора после того, как уже введен фактор нецелесообразно (рис. 9.29).

Рис. 9.29 . Результаты расчета критерия Фишера

Низкое значение (немногим больше 1) свидетельствует о статистической незначимости прироста за счет включения в модель фактора после фактора Это означает, что парная регрессионная модель зависимости затрат на выпуск продукции от объема произведенной продукции является достаточно статистически значимой, надежной и что нет необходимости улучшать ее, включая дополнительный фактор (расходы на сырье).

3. Дополнительные сведения для решения задач с помощью MS Excel

Сводные данные основных характеристик для одного или нескольких массивов данных можно получить с помощью инструмента анализа данных Опис а тельная статистика . Порядок действий следующий:

1. Необходимо проверить доступ к Пакету анализа . Для этого в ленте выбираем вкладку «Данные», в ней раздел «Анализ» (рис. 9.30.).

Рис. 9.30 . Вкладка данные диалоговое окно «Анализ данных»

2. В диалоговом окне «Анализ данных» выбрать Описательная стат и стика и нажать кнопку «ОК», в появившемся диалоговом окне заполните необходимые поля (рис. 9.31):

Рис. 9.31 . Диалоговое окно ввода параметров инструмента
« Описательная статистика »

Входной интервал - диапазон, содержащий данные результативного и объясняющих признаков;

Группирование - указать, как расположены данные (в столбцах или строках);

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист - можно задать произвольное имя нового листа, на который будут выведены результаты.

Для получения информации Итоговой статистики, Уровня наде ж ности, -го наибольшего и наименьшего значений нужно установить соответствующие флажки в диалоговом окне.

Получаем следующую статистику (рис. 2.10).

Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Назначение сервиса . С помощью онлайн-калькулятора можно найти следующие показатели:

  • уравнение множественной регрессии, матрица парных коэффициентов корреляции, средние коэффициенты эластичности для линейной регрессии;
  • множественный коэффициент детерминации, доверительные интервалы для индивидуального и среднего значения результативного признака;
Кроме этого проводится проверка на автокорреляцию остатков и гетероскедастичность .

Инструкция . Укажите количество данных (количество строк), количество переменных x нажмите Далее. Полученное решение сохраняется в файле Word (см. пример нахождения уравнения множественной регрессии и корреляции). Если данных много, можно вставить их из MS Excel . Для этого укажите количество переменных x нажмите Вставить из Excel ().

Количество факторов (x) 1 2 3 4 5 6 7 8 9 10 Количество строк
",0);">

При вычислении параметров уравнения множественной регрессии используется матричный метод . Для множественной регрессии с двумя переменными (m = 2), можно воспользоваться методом решения системы уравнений .

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели, который в свою очередь включает 2 круга вопросов: отбор факторов и выбор уравнения регрессии .

Отбор факторов обычно осуществляется в два этапа:

  1. теоретический анализ взаимосвязи результата и круга факторов, которые оказывают на него существенное влияние;
  2. количественная оценка взаимосвязи факторов с результатом. При линейной форме связи между признаками данный этап сводится к анализу корреляционной матрицы (матрицы парных линейных коэффициентов корреляции). Научно обоснованное решение задач подобного вида также осуществляется с помощью дисперсионного анализа - однофакторного , если проверяется существенность влияния того или иного фактора на рассматриваемый признак, или многофакторного в случае изучения влияния на него комбинации факторов.
Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:
  1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.
  2. Каждый фактор должен быть достаточно тесно связан с результатом (т.е. коэффициент парной линейной корреляции между фактором и результатом должен быть существенным).
  3. Факторы не должны быть сильно коррелированы друг с другом, тем более находиться в строгой функциональной связи (т.е. они не должны быть интеркоррелированы). Разновидностью интеркоррелированности факторов является мультиколлинеарность - тесная линейная связь между факторами.

Пример . Постройте регрессионную модель с 2-мя объясняющими переменными (множественная регрессия). Определите теоретическое уравнение множественной регрессии. Оцените адекватность построенной модели.
Решение .
К исходной матрице X добавим единичный столбец, получив новую матрицу X


Находим обратную матрицу (X T X) -1
13.99 0.64 -1.3
0.64 0.1 -0.0988
-1.3 -0.0988 0.14

Вектор оценок коэффициентов регрессии равен
(X T X) -1 X T Y = y(x) =
13,99 0,64 -1,3
0,64 0,1 -0,0988
-1,3 -0,0988 0,14
*
73
563
1032,5
=
34,66
1,97
-2,45

Получили оценку уравнения регрессии: Y = 34.66 + 1.97X 1 -2.45X 2
Оценка значимости уравнения множественной регрессии осуществляется путем проверки гипотезы о равенстве нулю коэффициент детерминации рассчитанного по данным генеральной совокупности. Для ее проверки используют

Используя статистический материал, приведенный в таблице 1.7 необходимо:

1. Построить линейное уравнение множественной регрессии, пояснить экономический смысл его параметров.

2. Дать сравнительную оценку тесноты связи факторов с результативным признаком с помощью средних (общих) коэффициентов эластичности.

3. Оценить статистическую значимость коэффициентов регрессии с помощью t – критерия и нулевую гипотезу о не значимости уравнения с помощью F – критерия.

4. Оценить качество уравнения посредством определения средней ошибки аппроксимации.

Таблица 1.7. Исходные данные

Чистый доход, млн. долл.США

Оборот капитала млн. долл. США

Использованный капитал, млн. долл. США

y i

x 1i

x 2i

1 , 50

5 , 50

2 ,4 0

3 ,0 0

4 , 20

2 , 70

Для определения неизвестных параметров b 0 ,b 1 , b 2 уравнения множественной линейной регрессии используем стандартную систему нормальных уравнений, которая имеет вид


(2.1)

Для решения этой системы вначале необходимо определить значения величин Sх 1 2 ,Sх 2 2 ,Sх 1 у,Sх 2 у,Sх 1 х 2 . Эти значения определяем из таблицы исходных данных, дополняя ее соответствующими колонками (таблица 3.8)

Таблица 2.8. К расчету коэффициентов регрессии

Тогда система (3.1.14) приобретает вид


(2.2)

Для решения данной системы воспользуемся методом Гаусса, который заключается в последовательном исключении неизвестных: делим первое уравнение системы на 10, затем умножаем полученное уравнение на 370,6 и вычитаем его из второго уравнения системы, далее умножаем полученное уравнение на 158,20 и вычитаем его из третьего уравнения системы. Повторяя указанный алгоритм для преобразованных второго и третьего уравнений системы получим

Þ
Þ

Þ
.

После преобразования имеем

(2.3)

Откуда

Тогда окончательно зависимость чистого дохода от оборота капитала и использованного капитала в виде линейного уравнения множественной регрессии имеет вид

Из полученного эконометрического уравнения видно, что с увеличением используемого капитала чистый доход увеличивается и наоборот с увеличением оборота капитала, чистый доход уменьшается. Кроме того, чем больше величина коэффициента регрессии, тем значительнее влияние объясняющей переменной на зависимую переменную. В рассматриваемом примере величина коэффициента регрессии больше чем величина коэффициента,следовательно, используемый капитал оказывает значительно большее влияние на чистый доход, чем оборот капитала. Для количественной оценки указанного вывода определим частные коэффициенты эластичности.

Анализ полученных результатов так же показывает, что большее влияние на чистый доход оказывает используемый капитал. Так в частности, при увеличении используемого капитала на 1% чистый доход увеличивается на 1,17%. В то же время с ростом оборота капитала на 1%, чистый доход снижается на 0,5%.

Теоретическое значение критерия Фишера F т

(2.5)

где

Величина критического значения F крит, определяется по статистическим таблицам и для уровня значимостиa= 0, 05 равняется 4,74.Так как F Т > F крит , то нулевая гипотеза отвергается, и полученное уравнение регрессии принимается статистически значимым .

Оценка статистической значимости коэффициентов регрессии ипо t -критерию сводится к сопоставлению численного значения этих коэффициентов с величиной их случайных ошибок
и
по зависимости

.

Рабочая формула для расчета теоретического значения t– статистики имеет вид

(2.6)

где парные коэффициенты корреляции и коэффициент множественной корреляции рассчитываются по зависимостям:

Тогда фактические, они же расчетные значения t- статистик соответственно равны

Поскольку критическое значение t- статистики, определенное по статистическим таблицам для уровня значимости a =0,05 равное t крит =2,36 больше по абсолютной величине чем = - 1,798, то нулевая гипотеза не отвергается и объясняющая переменная х 1 является статистически незначимой и ее можно исключить из уравнения регрессии. И наоборот, для второго коэффициента регрессии > t крит (3,3 >2,36), и объясняющая переменная х 2 является статистически значимой.

Для определения средней ошибки аппроксимации воспользуемся зависимостью (3.1.4). Для удобства расчетов преобразуем таблицу 2.8 к виду таблицы 2.9. В данной таблице в колонке рассчитаны текущие значения объясняющей переменной с использованием зависимости (2.3).

Таблица 2.9. К расчету средней ошибки аппроксимации

Тогда средняя ошибка аппроксимации равна

Полученное значение не превышает допустимого предела равного (12…15)%.

ЛЕКЦИЯ 2. ОБОСНОВАНИЕ КРИТЕРИЕВ ПРОВЕРКИ

СТАТИСТИЧЕСКИХ ГИПОТЕЗ (ЗНАЧИМОСТИ РЕГРЕССИИ)

Вернемся теперь к обоснованию критериев проверки значимости найденных по методу наименьших квадратов (МНК) параметров модели регрессии (и вообще методов проверки статистических гипотез). После того, как найдено уравнение линейной регрессии, производится оценка значимости как уравнения в целом, так и отдельных его параметров. Оценка значимости уравнения регрессии в целом может выполняться с помощью различных критериев. Достаточно распространенным и эффективным является применение F - критерия Фишера. При этом выдвигается нулевая гипотеза. Но, что коэффициент регрессии равен нулю, т.е. b=0, и, следовательно, фактор х не оказывает влияния на результат у. Непосредственному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения у на две части - «объясненную» и «необъясненную»:

Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения у вызвана влиянием множества факторов.

Условно разделим всю совокупность причин на две группы: изучаемый фактор х и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси ОХ и у=у. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов. Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, т.е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию.

Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результату. Это равносильно тому, что коэффициент детерминации
будет приближаться к единице. Любая сумма квадратов отклонений связана с числом степеней свободы, т.е. числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности лис числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из п возможных [(у1-у),(у2-у),..(уп-у)] требуется для образования данной суммы квадратов. Так, для общей суммы квадратов ∑(у-у) 2 требуется (п-1) независимых отклонений, т.к. по совокупности из п единиц после расчета среднего уровня свободно варьируют лишь (п-1) число отклонений. При расчете объясненной или факторной суммы квадратов ∑(у-у) 2 используются теоретические (расчетные) значения результативного признака у*, найденные по линии регрессии: у(х)=а+ b х.

Вернемся теперь к разложению общей суммы квадратов отклонений результативного фактора от среднего этой величины. Эта сумма содержит две уже определенные выше части: сумму квадратов отклонений, объясненную регрессией и другую сумму, которая называется остаточная сумма квадратов отклонений. С таким разложением связан анализ дисперсии, который прямо отвечает на принципиальный вопрос: как оценить значимость уравнения регрессии в целом и его отдельных параметров? Оно же в значительной мере и определяет смысл этого вопроса. Для оценки значимости уравнения регрессии в целом используется критерий Фишера (F-критерий). Согласно подходу, предложенному Фишером, выдвигается нулевая гипотеза
: коэффициент регрессии равен нулю, т.е. величина
b =0. Это означает, что фактор х не оказывает влияния на результат у.

Вспомним, что практически всегда полученные в результате статистического исследования точки не ложатся точно на линию регрессии. Они рассеяны, будучи удалены более или менее сильно от линии регрессии. Такое рассеяние обусловлено влиянием прочих, отличных от объясняющего фактора х, факторов, не учитываемых в уравнении регрессии . При расчете объясненной, или факторной суммы квадратов отклонений используются теоретические значения результативного признака, найденные по линии регрессии.

Для заданного набора значений переменных у и х расчетное значение среднего величины у является в линейной регрессии функцией только одного параметра – коэффициента регрессии. В соответствии с этим факторная сумма квадратов отклонений имеет число степеней свободы, равное 1. А число степеней свободы остаточной суммы квадратов отклонений при линейной регрессии равно n-2.

Следовательно разделив каждую сумму квадратов отклонений в исходном разложении на свое число степеней свободы получаем средний квадрат отклонений (дисперсию на одну степень свободы). Далее разделив факторную дисперсию на одну степень свободы на остаточную дисперсию на одну степень свободы получаем критерий для проверки нулевой гипотезы так называемое F-отношение, или одноименный критерий. Именно, при справедливости нулевой гипотезы факторная и остаточная дисперсии оказываются просто равны друг другу.

Для отклонения нулевой гипотезы, т.е. принятия противоположной гипотезы, которая выражает факт значимости (наличия) исследуемой зависимости, а не просто случайного совпадения факторов, имитирующего зависимость, которая фактически не существует необходимо использовать таблицы критических значений указанного отношения. По таблицам выясняют критическую (пороговую) величину критерия Фишера. Она называется также теоретической. Затем проверяют сравнивая ее с вычисленным по данным наблюдений соответствующим эмпирическим (фактическим) значением критерия, превосходит ли фактическая величина отношения критическую величину из таблиц.

Более подробно это делается так. Выбирают данный уровень вероятности наличия нулевой гипотезы и находят по таблицам критическое значение F -критерия, при котором еще может происходить случайное расхождение дисперсий на 1 степень свободы , т.е. максимальное такое значение. Затем вычисленное значение отношения F-признается достоверным (т.е. выражающим различие фактической и остаточной дисперсий), если это отношение больше табличного. Тогда нулевая гипотеза отклоняется (неверно, что отсутствуют признаки связи) и напротив приходим к заключению, что связь имеется и является существенной (носит неслучайный, значимый характер).

В случае, если величина отношения оказывается меньше табличного, то вероятность нулевой гипотезы оказывается выше заданного уровня (который выбирался изначально) и нулевая гипотеза не может быть отклонена без заметной опасности получить неверный вывод о наличии связи. Соответственно уравнение регрессии считается при этом незначимым.

Сама величина F-критерия связана с коэффициентом детерминации. Помимо оценки значимости уравнения регрессии в целом оценивают также значимость отдельных параметров уравнения регрессии. При этом определяют стандартную ошибку коэффициента регрессии с помощью эмпирического фактического среднеквадратичного отклонения и эмпирической дисперсии на одну степень свободы. После этого используют распределение Стьюдента для проверки существенности коэффициента регрессии для расчета его доверительных интервалов.

Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента выполняется посредством сопоставления значений этих величин и величины стандартной ошибки. Величина ошибки параметров линейной регрессии и коэффициента корреляции определяется по следующим формулам:

(2.2)

, (2.3)

где S – среднеквадратичное остаточное выборочное отклонение, r xy – коэффициент корреляции. Соответственно величина стандартной ошибки, предсказываемой по линии регрессии, дается формулой:

Соответствующие отношения значений величин коэффициентов регрессии и корреляции к их стандартной ошибке образуют так называемую t-статистику, а сравнение соответствующего табличного (критического) значения ее и ее фактического значения позволяет принять или отвергнуть нулевую гипотезу. Нo далее для расчета доверительного интервала находится предельная ошибка для каждого показателя как произведение табличного значения статистики t на среднюю случайную ошибку соответствующего показателя. По сути, чуть иначе мы уже фактически записали ее только что выше. Затем получают границы доверительных интервалов: нижнюю границу вычитанием из соответствующих коэффициентов (фактически средних) соответствующей предельной ошибки, а верхнюю границу – сложением (прибавлением).

В линейной регрессии ∑(y x - y ) 2 = b 2 ∑(x - x ) 2 . В этом нетрудно убедиться, обратившись к формуле линейного коэффициента корреляции: rху= b it σх/σу r 2 xy = b 2 it σ 2 x 2 y , где σ 2 y - общая дисперсия признака у; b 2 it σ 2 x - дисперсия признака у обусловленная фактором х. Соответственно сумма квадратов отклонений, обусловленных линейной регрессией, составит: σ∑(y x - y ) 2 = b 2 ∑(x - x ) 2 .

Поскольку при заданном объеме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b , то данная сумма квадратов имеет одну степень свободы. Рассмотрим содержательную сторону расчетного значения признака у т.е. ух. Величина ух определяется по уравнению линейной регрессии: ух=а+ b х.

Параметр а можно определить, как а=у- b х. Подставив выражение параметра а в линейную модель, получим: yx = y - bx + bx = y - b (x - x ).

При заданном наборе переменных у и х расчетное значение ух является в линейной регрессии функцией только одного параметра - коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет (п-2). Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т.е. (п-1). Итак, имеем два равенства: для сумм и для числа степеней свободы. А это в свою очередь возвращает нас опять к сопоставимым дисперсиям на одну степень свободы, отношение которых и дает критерий Фишера.

Аналогично отношению Фишера отношение величин параметров уравнения или корреляционного коэффициента к величине стандартной ошибки соответствующих коэффициентов образует критерий Стьюдента для проверки значимости этих величин. Далее также используются таблицы распределения Стьюдента и сравнение расчетных (фактических) значений с критическими (табличными).

Однако, более того, проверка гипотез о значимости коэффициентов регрессии и корреляции в нашем простейшем случае равносильна проверке гипотезы о существенности линейного уравнения регрессии по Фишеру (квадрат т-критерия Стьюдента равен критерию Фишера). Все описанное выше справедливо пока величина коэффициента корреляции не близка к 1. Если величина коэффициента корреляции близка к 1, то распределение его оценок отличается от нормального распределения или от распределения Стьюдента. В этом случае согласно Фишеру для оценки существенности коэффициента корреляции вводят новую переменную z для которой:

Z= (½)ln{(1+r)/(1-r)} (2.5)

Эта новая переменная z изменяется в неограниченных пределах от – бесконечности до + бесконечности и распределена уже весьма близко к нормальному закону. Для этой величины имеются рассчитанные таблицы. И поэтому удобно использовать ее для проверки значимости коэффициента корреляции в указанном случае.

ЛЕКЦИЯ 3. НЕЛИНЕЙНАЯ РЕГРЕССИЯ

Линейная регрессия и методы ее исследования и оценки не имели бы столь большого значения, если бы помимо этого весьма важного, но все же простейшего случая, мы не получали с их помощью инструмента анализа более сложных нелинейных зависимостей. Нелинейные регрессии могут быть разделены на два существенно различных класса. Первым и более простым является класс нелинейных зависимостей, в которых имеется нелинейность относительно объясняющих переменных, но которые остаются линейными по входящим в них и подлежащим оценке параметрам. Сюда входят полиномы различных степеней и равносторонняя гипербола.

Такая нелинейная регрессия по включенным в объяснение переменным простым преобразованием (заменой) переменных легко сводится к обычной линейной регрессии для новых переменных. Поэтому оценка параметров в этом случае выполняется просто по МНК, поскольку зависимости линейны по параметрам. Так важную роль в экономике играет нелинейная зависимость, описываемая равносторонней гиперболой:

y = a + (3.1)

Ее параметры хорошо оцениваются по МНК и сама такая зависимость характеризует связь удельных расходов сырья, топлива, материалов с объемом выпускаемой продукции, временем обращением товаров и всех этих факторов с величиной товарооборота. Например, кривая Филипса характеризует нелинейное соотношение между нормой безработицы и процентом прироста заработной платы.

Совершенно по другому обстоит дело с регрессией,нелинейной по оцениваемым параметрам, например, представляемой степенной функцией, в которой сама степень (ее показатель) является параметром, или зависит от параметра. Также это может быть показательная функция, где основанием степени является параметр и экспоненциальная функция, в которой опять же показатель содержит параметр или комбинацию параметров. Этот класс в свою очередь делится на два подкласса: к одному относятся внешне нелинейные, но по существу внутренне линейные. В этом случае можно привести модель к линейному виду с помощью преобразований. Однако, если модель внутренне нелинейна, то она не может быть сведена к линейной функции.

Таким образом, только модели внутренне нелинейные в регрессионном анализе считаются действительно нелинейными. Все прочие, сводящиеся к линейным посредством преобразований, таковыми не считаются и именно они и рассматриваются чаще всего в эконометрических исследованиях. В то же время это не означает невозможности исследования в эконометрике существенно нелинейных зависимостей. Если модель внутренне нелинейна по параметрам, то для оценки параметров используются итеративные процедуры, успешность которых зависит от вида уравнения особенностей применяемого итеративного метода.

Вернемся к зависимостям, приводимым к линейным. Если они нелинейны и по параметрам и по переменным, например, вида у=а умноженному на степень х, показатель которой и есть параметр –  (бета):

y = a
(3.2)

Очевидно, такое соотношение легко преобразуется в линейное уравнение простым логарифмированием: .

После введения новых переменных, обозначающих логарифмы, получается линейное уравнение. Тогда процедура оценивания регрессии состоит в вычислении новых переменных для каждого наблюдения путем взятия логарифмов от исходных значений. Затем оценивается регрессионная зависимость новых переменных . Для перехода к исходным переменным следует взять антилогарифм, т. е фактически вернуться к самим степеням вместо их показателей (ведь логарифм это и есть показатель степени). Аналогично может рассматриваться случай показательных или экспоненциальных функций.

Для существенно нелинейной регрессии невозможно применение обычной процедуры оценивания регрессии, поскольку соответствующая зависимость не может быть преобразована в линейную . Общая схема действий при этом такова:

    Принимаются некоторые правдоподобные исходные значения параметров;

    Вычисляются предсказанные значения у по фактическим значениям х с использованием этих значений параметров;

    Вычисляются остатки для всех наблюдений в выборке и затем сумма квадратов остатков;

    Вносятся небольшие изменения в одну или более оценку параметров;

    Вычисляются новые предсказанные значения у, остатки и сумма квадратов остатков;

    Если сумма квадратов остатков меньше, чем прежде, то новые оценки параметров лучше прежних и их следует использовать в качестве новой отправной точки.

    Шаги 4, 5 и 6 повторяются вновь до тех пор, пока не окажется невозможным внести такие изменения в оценки параметров, которые привели бы к изменению суммы остатков квадратов.

    Делается вывод о том, что величина суммы квадратов остатков минимизирована, и конечные оценки параметров являются оценками по методу наименьших квадратов.

Среди нелинейных функций, которые могут быть приведены к линейному виду, в эконометрике широко используется степенная функция. Параметр b в ней имеет четкое истолкование, являясь коэффициентом эластичности. В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразованным уравнениям. Практическое применение логарифмирования и соответственно экспоненты возможно тогда, когда результативный признак не имеет отрицательных значений. При исследовании взаимосвязей среди функций, использующих логарифм результативного признака, в эконометрике преобладают степенные зависимости (кривые спроса и предложения, производственные функции, кривые освоения для характеристики связи между трудоемкостью продукции, масштабами производства, зависимость ВНД от уровня занятости, кривые Энгеля).

Иногда используется так называемая обратная модель, являющаяся внутренне нелинейной, но в ней в отличие от равносторонней гиперболы преобразованию подвергается не объясняющая переменная, а результативный признак у. Поэтому обратная модель оказывается внутренне нелинейной и требование МНК выполняется не для фактических значений результативного признака у, а для их обратных значений. Особого внимания заслуживает исследование корреляции для нелинейной регрессии . В общем случае парабола второй степени, также, как и полиномы более высокого порядка, при линеаризации принимает вид уравнения множественной регрессии. Если же нелинейное относительно объясняемой переменной уравнение регрессии при линеаризации принимает форму линейного уравнения парной регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции.

Если преобразования уравнения регрессии в линейную форму связаны с зависимой переменной (результативным признаком), то линейный коэффициент корреляции по преобразованным значениям признаков дает лишь приближенную оценку связи и численно не совпадает с индексом корреляции. Следует иметь в виду, что при расчете индекса корреляции используются суммы квадратов отклонений результативного признака у, а не их логарифмов . Оценка значимости индекса корреляции выполняется также как и оценка надежности (значимости) коэффициента корреляции. Сам индекс корреляции как и индекс детерминации используется для проверки значимости в целом уравнения нелинейной регрессии по F-критерию Фишера.

Отметим, что возможность построения нелинейных моделей, как посредством приведения их к линейному виду, так и путем использования нелинейной регрессии с одной стороны повышает универсальность регрессионного анализа. А с другой – существенно усложняет задачи исследователя. Если ограничиваться парным регрессионным анализом, то можно построить график наблюдений у и х как диаграмму разброса. Часто несколько различных нелинейных функций приблизительно соответствуют наблюдениям, если они лежат на некоторой кривой. Но в случае множественного регрессионного анализа такой график построить невозможно.

При рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной процедура выбора сравнительно проста. Можно оценивать регрессию на основе всех вероятных функций, которые можно вообразить и выбирать функцию, в наибольшей степени объясняющую изменения зависимой переменной. Понятно, что когда линейная функция объясняет примерно 64% дисперсии у, а гиперболическая - 99,9% , очевидно следует выбирать последнюю модель. Но когда разные модели используют разные функциональные формы, проблема выбора модели существенно осложняется.

Более общим образом при рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной выбор прост. Разумнее всего оценивать регрессию на основе всех вероятных функций, останавливаясь на функции, в наибольшей степени объясняющей изменения зависимой переменной. Если коэффициент детерминации измеряет в одном случае объясненную регрессией долю дисперсии, а в другом – объясненную регрессией долю дисперсии логарифма этой зависимой переменной, то выбор делается без затруднений. Другое дело, когда эти значения для двух моделей весьма близки и проблема выбора существенно осложняется.

Тогда следует применять стандартную процедуру в виде теста Бокса-Кокса. Если нужно всего лишь сравнить модели с использованием результативного фактора и его логарифма в виде варианта зависимой переменой, то применяют вариант теста Зарембки. В нем предлагается преобразование масштаба наблюдений у, при котором обеспечивается возможность непосредственного сравнения среднеквадратичной ошибки (СКО) в линейной и логарифмической моделях. Соответствующая процедура включает следующие шаги:

    Вычисляется среднее геометрическое значений у в выборке, совпадающее с экспонентой среднего арифметического значений логарифма от у.

    Пересчитываются наблюдения у, таким образом что они делятся на полученное на первом шаге значение.

    Оценивается регрессия для линейной модели с использованием пересчитанных значений у вместо исходных значений у и для логарифмической модели с использованием логарифма от пересчитанных значений у. Теперь значения СКО для двух регрессий сравнимы и поэтому модель с меньшей суммой квадратов отклонений обеспечивает лучшее соответствие с истинной зависимостью наблюденных значений.

    Для проверки того, что одна из моделей не обеспечивает значимо лучшее соответствие можно использовать произведение половины числа наблюдений на логарифм отношения значений СКО в пересчитанных регрессиях с последующим взятием абсолютного значения этой величины. Такая статистика имеет распределение хи-квадрат с одной степенью свободы (обобщение нормального распределения).

ЛЕКЦИЯ 4 МНОЖЕСТВЕННАЯ РЕГРЕССИЯ

Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Например, при построении модели потребления того или иного товара от дохода исследователь предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав. Вместе с тем исследователь никогда не может быть уверен в справедливости данного предположения. Для того чтобы иметь правильное представление о влиянии дохода на потребление, необходимо изучить их корреляцию при неизменном уровне других факторов. Прямой путь решения такой задачи состоит в отборе единиц совокупности с одинаковыми значениями всех других факторов, кроме дохода. Он приводит к планированию эксперимента - методу, который используется в химических, физических, биологических исследованиях.

Экономист в отличие от экспериментатора-естественника лишен возможности регулировать другие факторы. Поведение отдельных экономических переменных контролировать нельзя, т. е. не удается обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора. В этом случае следует попытаться выявить влияние других факторов, введя их в модель, т. е. построить уравнение множественной регрессии:

y=a+b 1 *x 1 +b 2 *x 2 +…+b p *x p +(9.1)

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и целого ряда других вопросов эконометрики. В настоящее время множественная регрессия - один из наиболее распространенных методов в эконометрике. Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели, Включает в себя два круга вопросов; отбор факторов и выбор вида уравнения регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям.

    Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости).

    Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми.

Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором р факторов, то для нее рассчитывается показатель детерминации R 2 , который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других не учтенных в модели факторов оценивается как 1 - R 2 с соответствующей остаточной дисперсией S 2 .

При дополнительном включении в регрессию р + 1 фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться

R 2 p +1 R 2 p (9.2)

S 2 p +1 S 2 p (9.3)

Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включаемый в анализ фактор x p +1 не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по t-критерию Стьюдента.

Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй - на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.

Коэффициенты интеркорреляции (т. е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы.

Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

По величине парных коэффициентов корреляции может обнаруживаться лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т. е. имеет место совокупное воздействие факторов друг на друга.

Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой, и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов (МНК).

Если рассматривается регрессия для расчета параметров, применяя МНК,

y=a+b*x+y*z+d*v+, (9.4)

то предполагается равенство

S y =S факт +S (9.5)

где S y - общая сумма квадратов отклонений
, а S факт - факторная (объясненная) сумма квадратов отклонений
, S - остаточная сумма квадратов отклонений
.

В свою очередь, при независимости факторов друг от друга выполнимо равенство:

S факт = S x + S z + S v (9.6)

где S x , S z , S v - суммы квадратов отклонений, обусловленные влиянием соответствующих факторов.

Если же факторы интеркоррелированы, то данное равенство нарушается.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий:

    затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в "чистом" виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл;

    оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.

Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все не диагональные элементы были бы равны нулю.

Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

Оценка значимости мультиколлинеарности факторов может быть проведена методом испытания гипотезы о независимости переменных.

Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение коэффициента множественной детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов можно выделить переменные, ответственные за мультиколлинеарность, следовательно, можно решать проблему отбора факторов, оставляя в уравнении факторы с минимальной величиной коэффициента множественной детерминации.

Существует ряд подходов преодоления сильной межфакторной корреляции. Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов. Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними. Например, при построении модели на основе рядов динамики переходят от первоначальных данных к первым разностям уровней, чтобы исключить влияние тенденции, или используются такие методы, которые сводят к нулю межфакторную корреляцию, т. е. переходят от исходных переменных к их линейным комбинациям, не коррелированных друг с другом (метод главных компонент).

Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т. е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие.

Рассматривается уравнение, включающее взаимодействие первого порядка (взаимодействие двух факторов). Возможно включение в модель и взаимодействий более высокого порядка (взаимодействие второго порядка).

Как правило, взаимодействия третьего и более высоких порядков оказываются статистически незначимыми, совмещенные уравнения регрессии ограничиваются взаимодействиями первого и второго порядков. Но и эти взаимодействия могут оказаться несущественными, поэтому нецелесообразно полное включение в модель взаимодействий всех факторов и всех порядков.

Совмещенные уравнения регрессии строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений (комбинаций азота и фосфора).

Решению проблемы устранения мультиколлинеарности факторов может помочь и переход к уравнениям приведенной формы. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения.

Пусть, например, рассматривается двухфакторная регрессия вида

у х =а+b i *x i +b 2 *X 2 , дня которой факторы, xi и Х 2 обнаруживают высокую корреляцию. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместе с тем можно оставить факторы в модели, но исследовать данное двухфакторное уравнение регрессии совместно с другим уравнением, в котором фактор рассматривается как зависимая переменная.

Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Подходы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно к разным методикам. В зависимости от того, какая методика построения уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.

Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии:

    метод исключения;

    метод включения;

    шаговый регрессионный анализ.

Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты - отсев факторов из полного его набора (метод исключения), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ).

На первый взгляд может показаться, что матрица парных коэффициентов корреляции играет главную роль в отборе факторов. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать вопрос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результатом.

Матрица частных коэффициентов корреляции наиболее широко используется в процедуре отсева факторов. При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6 - 7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной вариации очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F-критерий меньше табличного значения.

По существу эффективность и целесообразность применения эконометрических методов наиболее явно проявляются при изучении явлений и процессов, в которых зависимая переменная (объясняемая) подвержена влиянию множества различных факторов (объясняющих переменных). Множественная регрессия это уравнение связи с несколькими независимыми переменными . Позднее, правда, мы увидим, что эту независимость не следует понимать абсолютно. Необходимо исследовать какие объясняющие переменные можно считать независимыми в силу их незначительной связи между собой, а для каких это несправедливо. Но в качестве первого приближения, хорошо оправдывающегося во многих случаях и необходимого для понимания дальнейшего, мы изучим сначала этот более простой случай с независимыми объясняющими переменными

Каким образом отбираются факторы, входящие в модель множественной регрессии? Прежде всего, эти факторы должны поддаваться количественному измерению. Может оказаться, что необходимо включить в модель (уравнение) некий качественный фактор, который не имеет количественного измерения. В этом случае следует добиться количественной определенности такого качественного фактора, т.е. ввести некоторую шкалу оценки данного фактора и по ней оценить его. Далее факторы не должны иметь явно выраженной и к тому же сильной взаимосвязи (имеется в виду общая стохастическая связь, или корреляция), т.е. не быть интеркоррелированы.

Тем более, не допустимо наличие между факторами явной функциональной связи! В случае факторов с высокой степенью интеркорреляции система нормальных уравнений может оказаться плохо обусловленной, т.е. независимо от выбора численного метода ее решения получающиеся оценки коэффициентов регрессии будут неустойчивыми и ненадежными. Более того, при наличии высокой корреляции между факторами крайне трудно, практически невозможно определить изолированное влияние факторов на результативный признак, а сами параметры уравнения регрессии оказываются неинтерпретируемы.

Для оценки параметров уравнения множественной регрессии также как и для оценки таких параметров в простейшем случае парной однофакторной регрессии используется метод наименьших квадратов (МНК). Соответствующая система нормальных уравнений имеет структуру аналогичную той, которая была в модели однофакторной регрессии. Но теперь является более громоздкой, и для ее решения можно применять известный из линейной алгебры метод определителей Краммера.

Если парная регрессия (однофакторная) может дать хороший результат, в случае когда влиянием других факторов можно пренебречь, то исследователь не может быть уверен в справедливости пренебрежения влиянием прочих факторов в общем случае. Более того, в экономике в отличие от химии, физики и биологии затруднительно использовать для преодоления этой трудности методы планирования эксперимента , ввиду отсутствия в экономике возможности регулирования отдельных факторов! Поэтому особенно большое значение приобретает попытка выявления влияния прочих факторов с помощью построения уравнения множественной регрессии и изучения такого уравнения .

Анализ модели множественной регрессии требует разрешения двух весьма важных новых вопросов. Первым является вопрос разграничения эффектов различных независимых переменных . Данная проблема, когда она становится особенно существенна носит название проблемы мультиколлинеарности. Вторая, не менее важная проблема заключается в оценке совместной (объединенной) объясняющей способности независимых переменных в противоположность влиянию их индивидуальных предельных эффектов .

С этими двумя вопросами связана проблема спецификации модели. Дело в том, что среди нескольких объясняющих переменных имеются оказывающие влияние на зависимую переменную и не оказывающие такового влияния. Более того, некоторые переменные могут и вовсе не подходить для данной модели. Поэтому необходимо решить какие переменные следует включать в модель (уравнение). А какие переменные напротив необходимо исключить из уравнения. Так, если в уравнение не вошла переменная, которая по природе исследуемых явлений и процессов в действительности должна была быть включена в эту модель, то оценки коэффициентов регрессии с довольно большой вероятностью могут оказаться смещенными. При этом рассчитанные по простым формулам стандартные ошибки коэффициентов и соответствующие тесты в целом становятся некорректными.

Если же включена переменная, которая не должна присутствовать в уравнении, то оценки коэффициентов регрессии будут несмещенными, но с высокой вероятностью окажутся неэффективными. Также оказывается в этом случае, что рассчитанные стандартные ошибки окажутся в целом приемлемы, но из-за неэффективности регрессионных оценок они станут чрезмерно большими.

Особого внимания заслуживают так называемые замещающие переменные. Часто оказывается, что данные по какой либо переменной не могут быть найдены или что определение таких переменных столь расплывчато, что непонятно как их в принципе измерить. Другие переменные поддаются измерению, но таковое весьма трудоемко и требует много времени, что практически весьма неудобно. Во всех этих и иных случаях приходится использовать некоторую другую переменную, вместо вызывающей описанные выше затруднения. Такая переменная называется замещающей, но каким условиям она должна удовлетворять? Замещающая переменная должна выражаться в виде линейной функции (зависимости) от неизвестной (замещаемой) переменной и наоборот последняя также связана линейной зависимостью с замещающей переменной. Важно, что сами коэффициенты линейной зависимости неизвестны. Иначе всегда можно выразить одну переменную через другую и вовсе не использовать замещающей переменной. Оставаясь неизвестными коэффициенты являются обязательно постоянными величинами. Бывает и так, что замещающая переменная используется непреднамеренно (неосознанно).

Включаемые в уравнение множественной регрессии факторы должны объяснить вариацию зависимой переменной. Если строится модель с некоторым набором факторов, то для нее рассчитывается показатель детерминации, который фиксирует долю объясненной вариации результативного признака (объясняемой переменной) за счет рассматриваемых в регрессии факторов. А как оценить влияние других не учтенных в модели факторов? Их влияние оценивается вычитанием из единицы коэффициента детерминации, что и приводит к соответствующей остаточной дисперсии.

Таким образом, при дополнительном включении в регрессию еще одного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться . Если этого не происходит и данные показатели практически недостаточно значимо отличаются друг от друга, то включаемый в анализ дополнительный фактор не улучшает модель и практически является лишним фактором.

Если модель насыщается такими лишними факторами, то не только не снижается величина остаточной дисперсии и не происходит увеличения показателя детерминации, но более того снижается статистическая значимость параметров регрессии по критерию Стьюдента вплоть до статистической незначимости!

Вернемся теперь к уравнению множественной регрессии с точки зрения различных форм, представляющих такое уравнение. Если ввести стандартизованные переменные, представляющие собой исходные переменные, из которых вычитаются соответствующие средние, а полученная разность делится на стандартное отклонение, то получим уравнения регрессии в стандартизованном масштабе . К этому уравнению применим МНК. Для него из соответствующей системы уравнений определяются стандартизованные коэффициенты регрессии  (бета-коэффициенты). В свою очередь коэффициенты множественной регрессии просто связаны со стандартизованными бета-коэффициентами, именно коэффициенты регрессии получаются из бета-коэффициентов умножением последних на дробь, представляющую собой отношение стандартного отклонения результативного фактора к стандартному отклонению соответствующего объясняющего переменного.

В простейшем случае парной регрессии стандартизованный коэффициент регрессии это не что иное, как линейный коэффициент корреляции. Вообще стандартизованные коэффициенты регрессии показывают на сколько стандартных отклонений изменится в среднем результат, если соответствующий фактор изменится на одно стандартное отклонение при неизменном среднем уровне других факторов. Кроме того, поскольку все переменные заданы как центрированные и нормированные, все стандартизованные коэффициенты регрессии сравнимы между собой. Поэтому сравнивая их между собой, можно ранжировать факторы по силе их воздействия на результат. Следовательно можно использовать стандартизованные коэффициенты регрессии для отсева факторов с наименьшим влиянием на результат просто по величинам соответствующих стандартизованных коэффициентов регрессии.

Теснота совместного влияния факторов на результат оценивается с помощью индекса множественной корреляции, который дается простой формулой: из единицы вычитается отношение остаточной дисперсии к дисперсии результативного фактора, а из полученной разности извлекается квадратный корень:

(9.7)

Его величина лежит в пределах от 0 до 1 и при этом больше или равна максимальному парному индексу корреляции. Для уравнения в стандартизованном виде (масштабе) индекс множественной корреляции записывается еще проще, т.к. подкоренное выражение в данном случае является просто суммой попарных произведений бета-коэффициентов на соответствующие парные индексы корреляции:

(9.8)

Т.о. в целом качество построенной модели оценивают с помощью коэффициента, или индекса детерминации как показано выше. Этот коэффициент множественной детерминации рассчитывается как индекс множественной корреляции, а иногда используют скорректированный соответствующий индекс множественной детерминации, который содержит поправку на число степеней свободы. Значимость уравнения множественной регрессии в целом оценивается с помощью F-критерия Фишера. Имеется также частный F-критерий Фишера, оценивающий статистическую значимость присутствия каждого из факторов в уравнении.

Оценка значимости коэффициентов чистой регрессии с помощью t-критерия Стьюдента сводится к вычислению корня квадратного из величины соответствующего частного критерия Фишера, или что то же самое нахождения величины отношения коэффициента регрессии к среднеквадратической ошибке коэффициента регрессии.

При тесной линейной связанности факторов, входящих в уравнение множественной регрессии, возможно возникновение проблемы мультиколлинеарности факторов. Количественным показателем явной коллинеарности двух переменных является соответствующий линейный коэффициент парной корреляции между этими двумя факторами. Две переменные явно коллинеарны, если этот коэффициент корреляции больше или равен 0,7. Но это указание на явную коллинеарность факторов совершенно не достаточно для исследования общей проблемы мультиколлинеарности факторов, т.к. чем сильнее мультиколлинеарность (без обязательного наличия явной коллинеарности) факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК.

Более эффективным инструментом оценки мультиколлинеарности факторов является определитель матрицы парных коэффициентов корреляции между факторами. При полном отсутствии корреляции между факторами матрица парных коэффициентов корреляции между факторами просто единичная матрица, ведь все недиагональные элементы в этом случае равны нулю. Напротив, если между факторами имеется полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен 0. Следовательно, можно сделать вывод, что чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. Чем ближе к 1 этот определитель, тем меньше мультиколлинеарность факторов.

Если известно, что параметры уравнения множественной регрессии линейно зависимы, то число объясняющих переменных в уравнении регрессии можно уменьшить на единицу. Если действительно использовать подобный прием, то можно повысить эффективность оценок регрессии. Тогда, имевшаяся ранее мультиколлинеарность, может быть смягчена. Даже если такая проблема и отсутствовала в исходной модели, то все равно выигрыш в эффективности может привести к улучшению точности оценок. Естественно такое улучшение точности оценок отражается стандартными ошибками их. Сама линейная зависимость параметров называется также линейным ограничением .

Помимо уже рассмотренных вопросов нужно иметь в виду, что при использовании данных временного ряда не обязательно требовать выполнения условия, что на текущее значение зависимой переменной влияют только текущие же значения объясняющих переменных. Именно можно ослабить это требование и исследовать в какой степени проявляется запаздывание соответствующих зависимостей и такое влияние его. Спецификация запаздываний для конкретных переменных в данной модели называется лаговой структурой (от слова лаг – запаздывание). Такая структура бывает важным аспектом модели, и сама может выступать в роли спецификации переменных модели. Поясним сказанное простым примером. Можно считать, что люди склонны соотносить свои расходы на жилье не с текущими расходами или ценами, а с предшествующими, например, за прошлый год.

ЛЕКЦИЯ 5. СИСТЕМЫ ЭКОНОМЕТРИЧЕСКИХ УРАВНЕНИЙ

И ПРОБЛЕМА ИДЕНТИФИКАЦИИ

Сложные системы и процессы в них, как правило, описываются не одним уравнением, а системой уравнений. При этом между переменными имеются связи, так что, по крайней мере, некоторые из таких связей между переменными требуют корректировки МНК для адекватного оценивания параметров модели (параметров системы уравнений). Удобно сначала рассмотреть оценивание системы, в которой уравнения связаны только благодаря корреляции между ошибками (остатками) в разных уравнениях системы. Такая система называется системой внешне не связанных между собой уравнений:

………………………………

В такой системе каждая зависимая переменная рассматривается как функция одного и того же набора факторов, правда этот набор факторов вовсе не обязан быть представлен весь целиком во всех уравнениях системы, а может варьировать от одного уравнения к другому. Можно рассматривать каждое уравнение такой системы независимо от остальных и применять для оценивания его параметров МНК. Но в практически важных задачах описываемые отдельными уравнениями зависимости представляют объекты и взаимодействие между этими объектами, которые находятся в одной общей среде. Наличие этой единой экономической среды обусловливает взаимосвязи между объектами и соответствующее взаимодействие, за что отвечают в данном случае остатки (корреляция между ошибками). Поэтому объединение уравнений в систему и применение ОМНК для ее решения существенно повышает эффективность оценивания параметров уравнений.

Более общей является модель так называемых рекурсивных уравнений , когда зависимая переменная одного уравнения выступает в роли фактора х, оказываясь в правой части другого уравнения системы. При этом каждое последующее уравнение системы (зависимая переменная в правой части этих уравнений) включает в качестве факторов все зависимые переменные предшествующих уравнений наряду с набором их собственных факторов х. Здесь опять каждое уравнение системы может рассматриваться независимо, но то же эффективнее рассматривать взаимосвязь через остатки и применять ОМНК.

……………………………………………………

Наконец, общим и самым полным является случай системы взаимосвязанных уравнений . Такие уравнения еще называют одновременными, или взаимозависимыми. Также это система совместных одновременных уравнений. Здесь уже одни и те же переменные рассматриваются одновременно как зависимые в одних уравнениях и в то же самое время – как независимые в других уравнениях системы. Такая форма модели называется структурной формой модели. Теперь уже нельзя рассматривать каждое уравнение системы по отдельности (как самостоятельное), так что для оценки параметров системы традиционный МНК неприменим!

……………………………………………………….

Для этой структурной формы модели существенное значение получает деление переменных модели на два различных класса. Эндогенные переменные – взаимозависимые переменные, которые определяются внутри модели (внутри самой системы) и обозначаются у . Второй класс это экзогенные переменные – независимые переменные, которые определяются вне системы и обозначаются как х . Кроме того, вводится также понятие предопределенных переменных . Под ними понимаются экзогенные переменные системы и лаговые эндогенные переменные системы (лаговые это переменные, относящиеся к предыдущим моментам времени).

Структурная форма модели в правой части содержит при эндогенных и экзогенных переменных коэффициенты, которые называются структурными коэффициентами модели. Можно представить систему (модель) в другой форме. Именно записать ее как систему, в которой все эндогенные переменные линейно зависят уже только от экзогенных переменных . Иногда практически то же формулируют несколько более общим формально образом. То есть требуют, чтобы эндогенные переменные линейно зависели только от всех предопределенных переменных системы (т.е. экзогенных и лаговых эндогенных переменных системы). В любом из этих двух случаев такая форма называется приведенной формой модели. Приведенная форма уже ничем внешне не отличается от системы независимых уравнений.

……………………………

Ее параметры оцениваются по МНК. После чего несложно оценить и значения эндогенных переменных с помощью значений экзогенных переменных. Но коэффициенты приведенной формы модели являются нелинейными функциями коэффициентов структурной формы модели. Таким образом, получение оценок параметров структурной формы модели по параметрам приведенной формы технически является не столь уж простым.

Нужно отметить также, что приведенная форма модели аналитически уступает структурной форме модели, т.к. именно в структурной форме модели имеется взаимосвязь между эндогенными переменными. В приведенной форме модели отсутствуют оценки взаимосвязи между эндогенными переменными. С другой стороны в структурной форме модели в полном виде имеется большее количество параметров, чем в приведенной форме модели. И это большее количество параметров, которые требуется определить по меньшему числу определяемых в приведенной форме параметров, невозможно однозначно найти, если только не ввести определенные ограничения на сами структурные коэффициенты.

Описанная только что наиболее общая модель – система взаимозависимых уравнений – получила название системы совместных, одновременных уравнений. Эта структурная форма модели подчеркивает, что в такой системе одни и те же переменные одновременно рассматриваются как зависимые в одних уравнениях и как независимые в других. Важным примером такой модели служит следующая простая модель динамики и заработной платы

В этой модели левые части первого и второго уравнений системы это темп изменения месячной заработной платы и темп изменения цен. Переменные, стоящие в правых частях уравнений, х 1 – процент безработных, х 2 – темп изменения постоянного капитала, х 3 – темп изменения цен на импорт сырья.

Что касается структурной модели, то она позволяет увидеть влияние изменений любой экзогенной переменной на значения эндогенной переменной. Поэтому следует в качестве экзогенных переменных выбирать такие переменные, которые могут быть объектом регулирования. Тогда меняя их и управляя ими, можно заранее иметь целевые значения эндогенных переменные.

Таким образом, существуют две различные формы моделей, которые описывают одну ситуацию, но имеют определенные преимущества в контексте решения различных проблем, различных аспектов этой ситуации. Следовательно, нужно уметь устанавливать и поддерживать должное соответствие между этими двумя формами моделей. Так при переходе от структурной формы модели к приведенной форме модели возникает проблема идентификации – единственности соответствия между приведенной и структурной формами модели. По возможности идентифицируемости структурные модели делятся на три вида.

Модель идентифицируема, если все структурные коэффициенты модели однозначно определяются по коэффициентам приведенной формы модели. При этом число параметров в обеих формах модели одинаково.

Модель неидентифицируема, если число приведенных коэффициентов меньше числа структурных коэффициентов. Тогда структурные коэффициенты не могут быть определены и оценены через коэффициенты приведенной формы модели.

Модель сверхидентифицируема , если число приведенных коэффициентов больше числа структурных коэффициентов. В таком случае на основе коэффициентов приведенной формы можно получить два или более значений одного структурного коэффициента. Сверхидентифицируемая модель в отличие от неидентифицируемой модели практически всегда решаема, однако для этого используются специальные методы вычисления параметров.

Следует подчеркнуть опять, что деление переменных на эндогенные и экзогенные зависит от содержания модели, а не от ее формальных особенностей. Именно интерпретация определяет какие переменные считать эндогенными, а какие – экзогенными. При этом предполагается, что эндогенные переменные некоррелированы с ошибкой для каждого уравнения. Тогда как экзогенные переменные (они стоят в правых частях уравнений) как правило, имеют ненулевую корреляцию с ошибкой в соответствующем уравнении . Для приведенной формы уравнений (в отличие от структурной формы) в каждом уравнении экзогенная переменная некоррелирована с ошибкой. Именно поэтому МНК для ее параметров дает состоятельные оценки. А сам такой способ оценки параметров (уже структурных коэффициентов) с помощью оценок коэффициентов приведенной формы и МНК называется косвенным методом наименьших квадратов. Использование косвенного метода наименьших квадратов заключается просто в составлении приведенной формы, для определения численных значений параметров каждого уравнения посредством обычного МНК. После этого с помощью алгебраических преобразований переходят опять к исходной структурной форме модели и получают тем самым численные оценки структурных параметров.

Итак, косвенный метод наименьших квадратов применяется для решения идентифицируемой системы. А как следует поступать в случае сверхидентифицируемой ситстемы? В этом случае применяется двухшаговый метод наименьших квадратов.

Двухшаговый МНК (ДМНК) использует следующую центральную идею: на основе приведенной формы модели получают для сверхидентифицируемого уравнения теоретические значения эндогенных переменных, содержащихся в правой части уравнения. Затем они подставляются вместо фактических значений и применяют обычный МНК к структурной форме сверхидентифицируемого уравнения. В свою очередь сверхидентифицируемая структурная модель может быть двух типов. Либо все уравнения системы сверхидентифицируемы. Либо же система содержит наряду со сверхидентифицируемыми также и точно идентифицируемые уравнения. В первом случае, если все уравнения системы сверхидентифицируемые, то для оценки структурных коэффициентов каждого уравнения используется ДМНК. Если в системе есть точно идентифицируемые уравнения, то структурные коэффициенты по ним находятся из системы приведенных уравнений.

Структурная модель это система совместных уравнений, каждое из которых нужно проверять на идентификацию. Вся модель считается идентифицируемой, если идентифицируемо каждое уравнение системы. Если неидентифицируемо, хотя бы одно из уравнений системы, то вся система неидентифицируема. Сверхидентифицируемая модель должна содержать хотя бы одно сверхидентифицируемое уравнение. Чтобы уравнение было идентифицируемо, необходимо, чтобы число предопределенных переменных, отсутствующих в данном уравнении, но присутствующих в во всей системе в целом, равнялось числу эндогенных переменных в данном уравнении без одного .

Необходимое условие идентификации это выполнение счетного правила. Если число предопределенных переменных, отсутствующих в уравнении, но присутствующих в системе, увеличенное на единицу, равно числу эндогенных переменных в уравнении, то уравнение идентифицируемо. Если меньше – то неидентифицируемо. Если больше – то сверхидентифицируемо.

Это простое условие является всего лишь необходимым. Оно не достаточно. Достаточным является более сложное условие идентификации. Оно накладывает определенные условия на коэффициенты матриц параметров структурной модели.

Именно уравнение идентифицируемо, если определитель матрицы, составленной из коэффициентов при переменных, которые отсутствуют в исследуемом уравнении, но наличествуют в других уравнениях системы не равен нулю и при этом ранг этой матрицы не менее числа эндогенных переменных системы без единицы.

Помимо уравнений, параметры которых необходимо оценить, в эконометрических моделях используют и балансовые тождества переменных, коэффициенты, при которых равны по модулю единице. Понятно, что само тождество не нужно проверять на идентификацию, т.к. коэффициенты в тождестве известны. Но в проверке самих структурных уравнений системы тождества участвуют. Наконец, ограничения могут накладываться также на дисперсии и ковариации остаточных величин.

Вообще говоря, наиболее общим является оценивание по методу максимального правдоподобия. Этот метод при большом количестве уравнений достаточно трудоемок с вычислительной точки зрения. Несколько легче реализуется метод максимального правдоподобия при ограниченной информации, который называется методом наименьшего дисперсионного отношения. Но и он значительно сложнее ДМНК, так что ДМНК остается доминирующим вместе с некоторыми дополнительными методами.

Дадим (для интересующихся этим вопросом) несколько более полное разъяснение по методу максимального правдоподобия (ММП). Пусть имеется непрерывная случайная переменная, у которой нормальное распределение, известно стандартное отклонение, равное единице и неизвестно среднее. Нам же требуется найти значение среднего, которое максимизирует плотность вероятности для заданного наблюдения х 1 . Далее эта схема обобщается для случая уже не одного, а множества наблюдений и соответствующих значений х i . При этом получаем уже многомерную функцию распределения в виде произведения соответствующих одномерных плотностей вероятностей. Такую функцию можно использовать для проведения теста на отношение правдоподобия. Но есть и весомые аргументы, снижающие привлекательность применения ММП, помимо уже отмеченной вычислительной сложности. Как правило выборки являются малыми, так что методы с хорошими свойствами для больших выборок, не обязаны обладать таковыми для малых выборок. Далее для моделей с трендом ММП также как и МНК может быть достаточно уязвим. Имеется также ограничение на асимптотическое распределение случайного члена.

Применение систем эконометрических уравнений представляет собой не простую задачу. Проблемы здесь происходят из-за ошибок спецификации. Основной областью применения эконометрических моделей является построение макроэкономических моделей экономики целой страны. Это главным образом мультипликаторные модели кейнсианского типа. Более совершенными по сравнению со статическими моделями являются динамические модели экономики, которые содержат в правой части лаговые переменные и учитывают тенденцию развития (фактор времени). Значительные трудности создает невыполнение условия независимости факторов, которое в корне нарушается в системах одновременных (взаимозависимых) уравнений .

Использование корреляционно-регрессионного анализа в контексте структурного моделирования это попытка подойти к выделению и измерению причинных связей переменных. Для этого следует сформулировать гипотезы о структуре влияний и корреляции. Такая система причинных гипотез и соответствующих взаимосвязей изображается графом, вершины которого это переменные (причины или следствия), а дуги это причинные отношения. Далее верификация гипотез требует установления соответствия между графом и системой уравнений, описывающей этот граф.

Структурные модели эконометрики представляются системой линейных по отношению к наблюдаемым переменным уравнений. Если алгебраическая система соответствует графу без контуров (петель), то она является рекурсивной системой. Такая система позволяет рекуррентно определять значения входящих в нее переменных . В ней в уравнения для признака включаются все переменные, кроме тех переменных, которые расположены выше него по графу. Соответственно формулировка гипотез в структуре рекуррентной модели довольно проста, при условии использования данных динамики. Рекуррентная система уравнений позволяет определить полные и частные коэффициенты влияния факторов. Коэффициенты полного влияния измеряют значение каждой переменной в структуре . Структурные модели позволяют оценить полное и непосредственное влияние переменных, прогнозировать поведение системы, рассчитывать значения эндогенных переменных.

Если нужно всего лишь уточнить характер связей переменных, то используют метод путевого анализа (путевых коэффициентов). В основе его лежит гипотеза об аддитивном характере (аддитивность и линейность) связей между переменными. К сожалению применение путевого анализа в социально-экономических исследованиях затруднено тем, что не всегда линейная зависимость удовлетворительно выражает все разнообразие причинно-следственных связей в реальных системах. Значимость результатов анализа определяется правильностью построения максимально связного графа и соответственно изоморфной математической модели в виде системы уравнений. В то же время важным достоинством путевого анализа является возможность производить декомпозицию корреляций.

ЛЕКЦИЯ 6. ВРЕМЕННЫЕ РЯДЫ: ИХ АНАЛИЗ

Эконометрические модели, характеризующие протекание процесса во времени или состояние одного объекта в последовательные моменты времени (или периоды времени) представляют модели временных рядов. Временным рядом называется последовательность значений признака, принимаемых в течение нескольких последовательных моментов времени или периодов. Эти значения называются уровнями ряда. Между уровнями временного ряда, или (что, то же) ряда динамики может иметься зависимость. В этом случае значения каждого последующего уровня ряда зависят от предыдущих . Подобную корреляционную зависимость между последовательными уровнями ряда динамики называют автокорреляцией уровней ряда .

Количественное измерение корреляции осуществляется посредством использования линейного коэффициента корреляции между уровнями исходного временного ряда и уровнями этого ряда, сдвинутыми на несколько (1 или более) шагов во времени, получаемого из общей формулы линейного коэффициента корреляции для двух случайных величин у и х

, (6.1)

Эта общая формула приводит к удобной расчетной формуле в применении к исходному временному ряду и его сдвигу во времени:

(6.2)

Это коэффициент автокорреляции уровней ряда первого порядка – он измеряет зависимость между соседними уровнями ряда, или при лаге 1. В формуле (6.2) индексы 1 и 2 внизу справа для средних от у показывают, что это соответственно средние для исходного и для сдвинутого рядов. Не забывайте, что у сдвинутого ряда на одно значение меньше, чем у исходного (естественно он имеет меньшее на 1 число членов) и следовательно среднее берется для этих рядов по этому меньшему числу членов. Первое значении е исходного ряда опускается и в свою сумму при вычислении среднего не входит!

2. Аналогично определяется коэффициент автокорреляции второго, третьего и более высокого порядков. (6.1)

Соответствующая расчетная формула собственно для временного ряда из этой общей формулы получается простой заменой (для коэффициента автокорреляции первого порядка) величины х на величину у, сдвинутую на 1 шаг по времени.

Если сдвиг во времени составляет всего один шаг, то соответствующий коэффициент корреляции называется коэффициентом автокорреляции уровней ряда первого порядка. При этом лаг равен 1 . Измеряется же при этом зависимость между соседними уровнями ряда. В общем случае число шагов (или циклов), на которые осуществляется сдвиг, характеризующий влияние запаздывания, также называется лагом. С увеличением лага число пар значений, по которым рассчитывается коэффициент автокорреляции (в общем случае уменьшается), но при этом его поведение все же существенно зависит от структуры исходного ряда . В частности, при сильной сезонной зависимости и не очень заметном линейном тренде коэффициенты автокорреляции высших порядков, особенно четвертого, могут заметно превышать таковой первого порядка!

Динамика уровней ряда может иметь основную тенденцию (тренд). Это весьма характерно для экономических показателей. Тренд является результатом совместного длительного действия множества, как правило, разнонаправленных факторов на динамику исследуемого показателя. Далее довольно часто динамика уровней ряда подвержена циклическим колебаниям, которые зачастую носят сезонный характер. Иногда не удается выявить тренд и циклическую компоненту. Правда, нередко в этих случаях каждый следующий уровень ряда образуется как сумма среднего уровня ряда и некоторой случайной компоненты.

В очень многих случаях уровень временного ряда представляется в виде суммы тренда, циклической и случайной компоненты или в виде произведения этих компонент . В первом случае это аддитивная модель временного ряда. Во втором случае – мультипликативная модель. Исследование временного ряда заключается в выявлении и придании количественного выражения каждой из этих компонент. После чего удается использовать соответствующие выражения для прогнозирования будущих значений ряда. Можно также решать задачу построения модели взаимосвязи двух или нескольких временных рядов.

Для выявления трендовой, циклической компоненты можно использовать коэффициент автокорреляции уровней ряда и автокорреляционную функцию. Автокорреляционная функция это последовательность коэффициентов автокорреляции уровней первого, второго и т.д. Соответственно график зависимости значений автокорреляционной функции от величины лага (порядка коэффициента автокорреляции) - коррелограмма. Анализ автокорреляционной функции и коррелограммы позволяет определить лаг, при котором автокорреляция наиболее высокая, а следовательно, и лаг, при котором связь между текущим и предыдущими уровнями ряда наиболее тесная.

Прежде чем пояснить это отметим: коэффициент автокорреляции характеризует тесноту только линейной связи текущего и предыдущего уровней ряда. Если ряд имеет сильную нелинейную тенденцию коэффициент автокорреляции может приближаться к нулю. Знак его не может служить указанием на наличие возрастающей или убывающей тенденции в уровнях ряда.

Теперь об анализе структуры временного ряда с помощью автокорреляционной функции и коррелограммы. Довольно ясно, что, если наиболее высоким оказался коэффициент автокорреляции первого порядка, то исследуемый ряд содержит основную тенденцию, или тренд и скорее всего только ее . Если ситуация иная, когда наиболее высоким оказался коэффициент корреляции некоторого отличного от единицы порядка к, то ряд содержит циклические компоненты (циклические колебания) с периодом к моментов времени. Наконец, если ни один из коэффициентов корреляции не является значимым, то достаточно правдоподобными являются следующие две гипотезы. Либо ряд не содержит ни тренда, ни циклических компонентов, так что его структура носит флуктуацинный (резко случайный) характер. Возможно также, что имеется сильная нелинейная тенденция, обнаружение которой требует дополнительных специальных исследований .

Автокорреляция связана с нарушением третьего условия Гаусса-Маркова, что значение случайного члена (случайного компонента, или остатка) в любом наблюдении определяется независимо от его значений во всех других наблюдениях. Для экономических моделей характерна постоянная направленность воздействия не включенных в уравнение регрессии переменных, являющихся наиболее частой причиной положительной автокорреляции. Случайный член в регрессионной зависимости подвергается воздействию переменных, влияющих на зависимую переменную, которые не включены в уравнение регрессии . Если значение случайного компонента в любом наблюдении должно быть независимым от его значения в предыдущем наблюдении, то и значение любой переменной, “скрытой” в случайном компоненте, должно быть некоррелированным с ее значением в предыдущем наблюдении.

Попытки вычисления коэффициентов корреляции различных порядков и тем самым формирования автокорреляционной функции являются так сказать непосредственным выявлением корреляционной зависимости, которое иногда приводит к вполне удовлетворительным результатам. Имеются специальные процедуры оценивания неизвестного параметра  в выражении линейной зависимости, представляющем рекуррентное соотношение, связывающее значения случайных компонентов в текущем и в предыдущем наблюдении (коэффициент авторегрессии).

Тем не менее, необходимо иметь также и особые тесты на наличие или отсутствие корреляции по времени. В большинстве из таких тестов используется такая идея: если имеется корреляция у случайных компонентов, то она присутствует также и в остатках, получаемых после применения к модели (уравнениям) обычного МНК. Не станем здесь вдаваться в подробности реализации этой идеи. Они не очень сложны, но связаны с громоздкими алгебраическими преобразованиями. Важнее иметь в виду следующее. Как правило, все или почти все они связаны с проверкой двух альтернативных статистических гипотез. Нулевая гипотеза – отсутствие корреляции (=0). Альтернативная гипотеза либо просто состоит в том, что несправедлива гипотеза нулевая, т.е. 0. Либо так называемая односторонняя, более точная 0. Независимо от вида второй (альтернативной) гипотезы соответствующее распределение (используемое в критерии) зависит не только от числа наблюдений и количества регрессоров (объясняющих переменных), но и от всей матрицы коэффициентов при неизвестных в уравнениях системы .

Понятно, что невозможно составить таблицу критических значений для всех матриц, так что приходится использовать обходные способы применения таких тестов. В тесте Дарбина-Уотсона используются для этого верхняя и нижняя (две) границы, которые уже зависят только от количества наблюдений, регрессоров и уровня значимости – таким образом, их уже можно затабулировать (составить для них таблицы). Правда, применение их (границ) далеко не всегда просто! Все ясно, когда соответствующая статистика (эмпирическое, или рассчитанное распределение) Дарбина-Уотсона меньше нижней границы, то отвергается нулевая гипотеза и принимается альтернативная гипотеза. Если же тест больше верхней границы, то принимается первая (нулевая) гипотеза. Но если тест попадает между этими границами, ситуация становится неопределенной: непонятно как выбрать одну из двух гипотез. К сожалению, ширина этой неопределенной зоны вполне может быть довольно широкой. Естественно, что поэтому пытались и небезуспешно построить тесты, сужающие такую зону неопределенности.

Вернемся теперь к проблеме выявления основной зависимости. Для этого существуют различные методы. Это могут быть качественные методы и качественный анализ исследуемых временных рядов. В том числе построение и визуальный анализ графика зависимости уровней ряда от времени. Это могут быть методы сопоставления двух параллельных рядов и методы укрупнения интервалов. Поскольку они носят достаточно качественный характер, суть их понятна из названия, и, к тому же, они приводятся в курсах статистики, не станем более говорить о них.

Несколько более гибок и опирается на количественные (аналитические) инструменты анализа метод скользящей средней, или скользящего окна . В нем последовательно рассчитываются вместо одного “полного” среднего для всех наблюдений ряд так называемых частных средних для трех, пяти или более наблюдений, номера которых постоянно сдвигаются вправо (в сторону увеличения). Таким образом, получается последовательность частных средних, которая отсеивает несущественные флуктуации и способна легче обнаружить тренд, чем данные исходного ряда.

Очевидно также, что при описанном выше использовании коэффициентов автокорреляции уровней ряда для выявления тренда используется сравнение коэффициентов автокорреляции первого порядка, рассчитанных по исходным и преобразованным уровням ряда. Совсем очевидно, что при наличии линейного тренда соседние уровни ряда тесно коррелируют. Для нелинейного тренда дело обстоит сложнее, но нередко может быть упрощено сведением к линейному случаю соответствующим преобразованием переменных.

Основным способом моделирования и изучения, таким образом, основной тенденции временного ряда (ряда динамики) является аналитическое выравнивание временного ряда. При этом строится аналитическая функция, характеризующая зависимость уровней ряда динамики от времени. Эта функция называется также трендом. Сам такой способ выявления основной тенденции называется аналитическим выравниванием. В конце предыдущей лекции описаны различные способы определения типа тренда. В целом построение модели тренда включает следующие основные этапы:

    выравнивание исходного ряда методом скользящей средней;

    расчет сезонной компоненты;

    устранение сезонной компоненты из исходных уровней ряда и получение выровненных данных в модели;

    аналитическое выравнивание уровней и расчет значений тренда с использованием полученного уравнения тренда;

    расчет полученных по модели значений, генерируемых трендом и сезонной компонентой;

    расчет абсолютных и относительных ошибок.

В качестве основной тенденции выдвигается гипотеза о некоторой аналитической функции, выражающей данную зависимость. Но ведь требуется еще определить коэффициенты (параметры) данной зависимости. Для определения (оценивания) параметров тренда используется обычный МНК. Критерием отбора наилучшей формы тренда является наибольшее значение скорректированного коэффициента детерминации.

Для устранения тренда применяют метод отклонений от тренда , в ходе которого вычисляются значения тренда для каждого ряда динамики модели и отклонения от тренда. Далее для последующего анализа уже применяют не исходные данные, а отклонения от тренда.

Другой метод устранения тренда это метод последовательных разностей . Если тренд линейный, то исходные данные заменяются первыми разностями, которые в этом случае равны просто коэффициенту регрессии b сложенному с разностью соответствующих случайных компонент. Если тренд параболический, то исходные данные заменяются вторыми разностями. В случае экспоненциального и степенного тренда метод последовательных разностей применяется к логарифмам исходных данных. Не следует упускать из виду и уже обсуждавшуюся выше автокорреляцию в остатках. Для выявления автокорреляции остатков используется критерий Дарбина-Уотсона.

Рассматриваются также и эконометрические модели, содержащие не только текущие, но и лаговые (учитывающие запаздывание) значения факторных переменных. Эти модели так и называются модели с распределенным лагом . Если максимальная величина лага конечна, то для такой модели зависимость имеет довольно простой вид. Это просто сумма свободного члена и произведений коэффициентов (регрессии) на факторные переменные (в текущий момент, в предшествующий момент соответственно, в предпредшствующий момент и т.д.). Естественно, имеется еще и случайный член. Последовательные суммы соответствующих коэффициентов при значениях факторов в различные моменты времени называются промежуточными мультипликаторами. Для максимального лага воздействие фактора на результативное переменное описывается полной суммой соответствующих коэффициентов, которая и называется долгосрочным мультипликатором. После деления этих коэффициентов на долгосрочный мультипликатор получаются относительные коэффициенты модели с распределенным лагом . По формуле средней арифметической взвешенной получают величину среднего лага модели множественной регрессии. Эта величина представляет собой средний период, в течение которого будет происходить изменение результата под воздействием изменения фактора в момент t . Имеется также медианный лаг - период, в течение которого с момента времени t будет реализована половина общего воздействия фактора на результат.

Во многих практически интересных ситуациях выявление тренда (при всей важности этого) вовсе не является завершением исследования структуры ряда и требуется по крайней мере обнаружение и изучение еще циклической (сезонной) составляющей. Проще всего для решения подобных задач использовать метод скользящей средней. Далее построить аддитивную или мультипликативную модель временного ряда. Если амплитуда сезонных колебаний (или циклических колебаний) приблизительно постоянна, то строят аддитивную модель временного ряда, в котором (этом временном ряде) значения сезонной компоненты предполагаются постоянными для различных циклов. Если амплитуда сезонных колебаний возрастает или уменьшается, то строят мультипликативную модель. В мультипликативной модели уровни ряда зависят от значений сезонной компоненты.

В остальном схема во многом аналогична уже приводившейся выше с очевидными модификациями. Именно процесс построения модели включает следующие шаги:

    выравнивание исходного ряда методом скользящей средней,

    расчет значений сезонной компоненты,

    устранение сезонной компоненты из исходных уровней.

После этого наступает очередь шагов второго уровня:

    получение выровненных данных в аддитивной или мультипликативной модели соответственно,

    затем выполняется уже аналитическое выравнивание этих один раз уже выровненных уровней суперпозиции компонент тренда и циклической и расчет значений тренда в этой усовершенствованной модели с использованием полученного уравнения тренда,

    наконец, расчет уже по этой модели значений суперпозиции тренда и циклической компоненты и расчет абсолютных и относительных ошибок.

Если полученные значения ошибок не содержат автокорреляции, то ими можно заменить исходные уровни ряда и в дальнейшем использовать временной ряд ошибок для анализа взаимосвязи исходного ряда и других временных рядов.

Иногда строится модель регрессии с включением (явно) фактора времени и фиктивных переменных. При этом количество фиктивных переменных должно быть на единицу меньше числа моментов (периодов) времени внутри одного цикла колебаний . Каждая фиктивная переменная отражает сезонную (циклическую) компоненту ряда, для какого либо одного периода, поэтому она просто численно равна единице для данного периода и нулю для всех остальных периодов . Основным недостатком модели с фиктивными переменными является большое количество фиктивных переменных во многих случаях и тем самым снижение числа степеней свободы. В свою очередь уменьшение числа степеней свободы снижает вероятность получения статистически значимых оценок параметров уравнения регрессии.

Кроме сезонных и циклических колебаний весьма важную роль играют единовременные изменения характера тенденции временного ряда . Эти (относительно) быстрые однократные изменения тренда (его характера) вызываются структурными изменениями в экономике, либо мощными глобальными (внешними) факторами. Прежде всего выясняется значимо ли повлияли общие структурные изменения на характер тренда. При условии значимости такого влияния (структурных изменений) на характер тренда используется кусочно-линейная модель регрессии. Кусочно-линейная модель означает представление исходной совокупности данных ряда в виде двух частей . Одна часть данных моделируется просто линейной моделью с одним коэффициентом регрессии (углом наклона прямой) и представляет данные до момента (периода) структурных изменений. Вторая часть данных это тоже линейная модель, но уже с иным коэффициентом регрессии (углом наклона).

После построения двух таких моделей (подмоделей) линейной регрессии получают уравнения двух соответствующих прямых. Если структурные изменения незначительно повлияли на характер тенденции ряда, то вместо построения точной кусочно-линейной модели вполне можно использовать единую аппроксимирующую модель, т.е. использовать одну общую линейную зависимость (одну прямую) тоже вполне приемлемо представляющую данные в целом . Незначительное ухудшение в отдельных данных при этом не принципиально.

Если строится кусочно-линейная модель, то снижается остаточная сумма квадратов по сравнению с единым для всей совокупности уравнением тренда. В то же время разделение исходной совокупности на две части ведет к потере числа наблюдений и, тем самым, к снижению числа степеней свободы в каждом уравнении кусочно-линейной модели. Единое уравнение для всей совокупности данных позволяет сохранить число наблюдений исходной совокупности. Остаточная сумма квадратов по этому уравнению в то же время выше, чем такая же сумма для кусочно-линейной модели. Выбор конкретной (одной из двух моделей) именно кусочно-линейной или просто линейной, т.е. единого уравнения тренда зависит от соотношения между снижением остаточной дисперсии и потерей числа степеней свободы при переходе от единого уравнения регрессии к кусочно-линейной модели .

Для оценки этого соотношения был предложен статистический тест Грегори-Чоу. В этом тесте рассчитываются параметры уравнений трендов, вводится гипотеза о структурной стабильности тенденции исследуемого ряда динамики. Ясно, что остаточную сумму квадратов кусочно-линейной модели можно найти как сумму соответствующих сумм квадратов для обоих линейных компонентов модели. Сумма числа степеней свободы этих компонентов дает число степеней свободы всей модели в целом. Тогда сокращение остаточной дисперсии при переходе от единого уравнения тренда к кусочно-линейной модели это просто остаточная сумма квадратов, из которой вычтены соответствующие суммы для обеих компонент кусочно-линейной модели. Столь же просто определяется и соответствующее число степеней свободы.

После этого рассчитывается фактическое значение F-критерия по дисперсиям на одну степень свободы. Это значение сравнивают с табличным, полученным по таблицам распределения Фишера для требуемого уровня значимости и соответствующего числа степеней свободы. Как всегда, если расчетное (фактическое) значение больше табличного (критического), то гипотеза о структурной стабильности (незначимости структурных изменений) отклоняется. Влияние же структурных изменений на динамику изучаемого показателя признается значимым. Таким образом следует моделировать тенденцию ряда динамики с помощью кусочно-линейной модели. Если же расчетное значение меньше критического, то нельзя отклонять нуль-гипотезу без риска сделать неверный вывод. В этом случае следует использовать единое для всей совокупности уравнение регрессии как наиболее достоверное и минимизирующее вероятность ошибки .

К наиболее сложным задачам эконометрики относится изучение причинно-следственных зависимостей переменных, представленных в форме рядов динамики. Нужно проявлять особую осторожность в попытках использовать для этого традиционные методы кореляционно-регрессионного анализа . Дело в том, что эти ситуации характеризуются существенной спецификой и для адекватного исследования их имеются специальные методы, учитывающие эту специфику ситуации. На предварительном этапе анализа исследуется наличие в исходных данных сезонных или циклических колебаний в качестве выявления структуры изучаемого ряда динамики. Если такие компоненты имеются, то до проведения дальнейшего исследования взаимосвязи следует устранить сезонную или циклическую компоненту из уровней ряда. Это необходимо поскольку наличие таких компонент приведет к завышению истинных показателей силы и тесноты связи изучаемых рядов динамики, когда оба ряда содержат циклические компоненты одинаковой периодичности . Если же сезонные или циклические колебания содержит только один из рядов или периодичность колебаний в этих рядах различна, то соответствующие показатели будут занижены .

В основе всех методов устранения тренда лежат те или иные попытки устранения или фиксирования воздействия фактора времени на формирование уровней ряда. Все их можно разделить на два класса. В первый класс попадают методы, основанные на преобразовании уровней исходного ряда в новые переменные, не содержащие тренда . Полученные переменные используются для анализа взаимосвязи изучаемых временных рядов. Эти методы предполагают непосредственное устранение тренда из каждого уровня ряда динамики . Главные представители методов данного класса это метод последовательных разностей и метод отклонения от трендов .

Во второй класс попадают методы, основанные на изучении взаимосвязи исходных уровней временных рядов при элиминировании воздействия фактора времени на зависимую и независимые переменные модели . Прежде всего, это метод включения в модель регрессии по рядам динамики фактора времени .

В корреляционно-регрессионном анализе можно устранить воздействие какого либо фактора, если зафиксировать воздействие этого фактора на результат и другие включенные в модель факторы. Такой способ применяется в анализе рядов динамики, когда тренд фиксируется посредством включения фактора времени в модель в качестве независимой переменной. В простейшей линейной модели такое включение времени имеет вид слагаемого, которое есть просто произведение некоторого коэффициента на время . Кроме текущих переменных в уравнение регрессии могут входить также и лаговые значения результативной переменной.

Такая модель имеет некоторые преимущества по сравнению с методами отклонений от трендов и метода последовательных разностей. Она позволяет учесть всю информацию, содержащуюся в исходных данных. Это объясняется тем, что значения результативной переменной и факторов представляют собой уровни исходных рядов динамики. Важно также то, что сама модель строится по всей совокупности данных за рассматриваемый период. Это выгодно отличает модель от метода последовательных разностей, который приводит к потере числа наблюдений. Сами параметры модели с включением фактора времени определяют с помощью обычного МНК .

Метод отклонений от тренда для анализа взаимосвязи двух временных рядов заключается в следующем. Пусть каждый из рядов содержит тренд и случайную компоненту. Выполняется аналитическое выравнивание для каждого из этих двух рядов. Оно позволяет найти параметры соответствующих уравнений трендов. Также при этом определяются расчетные по тренду уровни рядов. Такие расчетные значения можно принять за оценку тренда каждого ряда. В свою очередь влияние тренда можно устранить вычитанием расчетных значений уровней ряда из фактических . После этого выполняется дальнейший анализ взаимосвязи рядов, но опираясь теперь уже не на исходные уровни, а используя отклонения от тренда. Вполне естественно считается, что отклонения от тренда сами уже не содержат основную тенденцию, поскольку все предыдущие процедуры как раз и имели своей целью ее устранение из отклонений.

Нередко вместо аналитического выравнивания ряда динамики для устранения тренда можно использовать более простой метод последовательных разностей . Так, если ряд динамики содержит явно выраженную линейную тенденцию , то ее можно устранить с помощью замены исходных уровней ряда цепными абсолютными приростами (первыми разностями). При наличии сильной линейной тенденции случайные остатки оказываются достаточно малы . В соответствии с предпосылками МНК и с учетом того, что коэффициент регрессии b это просто константа, не зависящая от времени, получаем, что первые разности уровней ряда не зависят от переменной времени. Поэтому их (первые разности) можно использовать для дальнейшего анализа. При наличии тренда в виде параболы второго порядка для устранения тренда используют замену исходных уровней ряда на вторые (а не первые) разности. Если тренд соответствует экспоненциальной или степенной зависимости, то метод последовательных разностей применяют не исходным уровням ряда, а к логарифмам исходных уровней .

В отличие от уравнения регрессии по отклонениям от тренда параметры уравнения в последовательных разностях имеют как правило прозрачную и простую интерпретацию. Но применение этого метода сокращает число пар наблюдений, по которым строится уравнение регрессии. Это означает в свою очередь потерю числа степеней свободы. Другой недостаток этого метода заключается в том, что использование вместо исходных уровней временного ряда их приростов или ускорений приводит к потере информации, содержащейся в исходных данных .

Важной проблемой, естественно примыкающей к рассмотренным темам, является автокорреляция в остатках. Дело в том, что последовательность остатков может рассматриваться как временной ряд. Тогда возникает возможность построения зависимости этой последовательности остатков от времени. Согласно предпосылкам адекватности применения МНК сами остатки должны быть случайными. В моделировании рядов динамики весьма распространена ситуация, когда остатки содержат тренд или циклические колебания. В этом случае каждое следующее значение остатков зависит от предшествующих, что и свидетельствует об автокорреляции остатков .

Такая автокорреляция остатков бывает связана с исходными данными и вызвана ошибками измерения в значениях результативного признака. В других случаях автокорреляция остатков происходит из-за недостатков формулировки модели. Например, может отсутствовать фактор, оказывающий существенное воздействие на результат, влияние которого отражается в остатках. Тем самым остатки вполне могут оказаться автокоррелированными. Помимо фактора времени в качестве таких существенных факторов могут выступать лаговые значения переменных, включенных в модель. Также может иметь место и такая ситуация, когда модель не учитывает несколько второстепенных по отдельности факторов, совместное влияние которых на результат уже оказывается существенным. Эта существенность проистекает в силу совпадения тенденций их изменения или фаз циклических колебаний.

Вместе с тем от такой истинной автокорреляции остатков необходимо отличать те ситуации, в которых причина автокорреляции заключается в неверной спецификации функциональной формы модели . Тогда уже нужно изменить форму связи факторных и результативного признаков. Именно это, а не использование специальных методов расчета параметров уравнения регрессии при наличии автокорреляции остатков, необходимо выполнять в таком случае.

Для определения автокорреляции остатков можно использовать построение графика зависимости остатков от времени с целью последующего визуального определения наличия или отсутствия автокорреляции. Другой метод это использование критерия Дарбина-Уотсона и расчет соответствующего теста. По существу этот тест представляет собой просто отношение суммы квадратов разностей последовательных значений остатков к остаточной сумме квадратов по модели регрессии . Надо иметь в виду, что практически во всех прикладных эконометрических и статистических программах указывается наряду со значениями t- и F-критериев, коэффициентом детерминации также значение критерия Дарбина-Уотсона.

Сам алгоритм выявления автокорреляции остатков на основе критерия Дарбина-Уотсона таков:

    выдвигается гипотеза об отсутствии автокорреляции остатков;

    альтернативные гипотезы состоят в наличии положительной или отрицательной автокорреляции в остатках;

    затем по специальным таблицам определяются критические значения критерия Дарбина-Уотсона для заданного числа наблюдений, числа независимых переменных модели и уровня значимости;

    по этим значениям числовой промежуток разбивают на пять отрезков.

Два из этих отрезков образуют зону неопределенности. Три других отрезка соответственно дают, что нет оснований отклонять гипотезу об отсутствии автокорреляции, есть положительная автокорреляция, есть отрицательная автокорреляция. При попадании в зону неопределенности практически считают, что имеется существование автокорреляции остатков и поэтому отклоняют гипотезу об отсутствии автокорреляции остатков.