Одним из условий Гаусса-Маркова является предположение о постоянстве дисперсии случайного члена :
для любого

Невыполнимость этого предположения называется гетероскедастичностью (непостоянством, неоднородностью дисперсии отклонений)

Обнаружение гетероскедастичности

В ряде случаев на базе знаний характера данных появление проблемы гетероскедастичности можно предвидеть и попытаться устранить этот недостаток еще на этапе спецификации.Однако значительно чаще эту проблему приходится решать после построения уравнения регрессии.

Обнаружение гетероскедастичности в каждом конкретном случае является довольно сложной задачей,т.к.для знания дисперсий отклонений σ 2 ()необходимо знать распределение случайной величины (СВ) Y,соответствующее выбранному значению СВ Х. В выборкедля каждого конкретного значения определяется единственное значение,что не позволяет оценить дисперсию СВYдля данного.

Не существует какого-либо однозначного метода определения гетероскедастичности.Однако к настоящему времени для выявлениягетероскедастичности разработано довольно большое число тестов и критериев:графический анализ отклонений,тест Голдфелда−Квандта (Goldfeld,Quandt, 1956),тест ранговой корреляции Спирмена,тест Парка,тест Глейзера и т.д. Рассмотрим некоторые из этих методов.

Графический анализ остатков

Использование графического представления отклонений позволяет сделать предположение о наличии или отсутствии гетероскедастичности. В этом случае по оси абсцисс откладывается объясняющая переменная Х (либо линейная комбинация объясняющих переменных,а по оси ординат либо отклонения ,либо их квадраты

Примеры таких графиков приведены на рис.4

На рис..4.а все отклонения находятся внутри полуполосы постоянной ширины, параллельной оси абсцисс. Это говорит о независимости дисперсий от значений переменной Х и их постоянстве, т.е. в этом случае мы находимся в условиях гомоскедастичности.

На рис.4.б г наблюдаются некие систематические изменения в соотношениях между значениями x i переменной Х и квадратами отклонений . На рис. 8.4,в отражена линейная; 8.4,г − квадратичная; 8.4,д − гиперболическая зависимости между квадратами отклонений и значениями объясняющей переменной Х. Другими словами, ситуации, представленные на рис. 8.4,б д , отражают большую вероятность наличия гетероскедастичности для рассматриваемых статистических данных.

Отметим, что графический анализ отклонений является удобным и достаточно надежным в случае парной регрессии. При множественной регрессии графический анализ возможен для каждой из объясняющих переменных Х j , j = 1, 2, …,kотдельно. Чаще же вместо объясняющих переменных Х j по оси абсцисс откладывают значения, получаемые из эмпирического уравнения регрессии. Поскольку расчетное значение зависимой переменнойявляется линейной комбинацией факторных переменных, j = 1, 2,k, то график, отражающий зависимостьот, может указать на наличие гетероскедастичности аналогично ситуациям на рис. 8.4,б д . Такой анализ наиболее целесообразен при большом количестве объясняющих переменных.

Тест ранговой корреляции Спирмена

При использовании данного теста предполагается,что дисперсия отклонения будет либо увеличиваться,либо уменьшаться с увеличением значения Х.Поэтому для регрессии,построенной по МНК,абсолютные величины отклонений и значения СВ Х будут коррелированы.Значения и ранжируются(упорядочиваются по значению).Затем определяется коэффициент ранговой корреляции:
(1)

где−разность между рангами и,
, где n −число наблюдений

Например,если
является15-м по величине среди всех наблюдений Х;а
−является30-м,то= 15 − 30= −15.

Доказано,что если коэффициент корреляции для генеральной совокупности равен нулю,то статистика

(2)

имеет распределение Стьюдента с числом степеней свободы ν= n − 2.

Следовательно,если наблюдаемое значениеt-статистики,вычисленное по формуле(2),превышаетt кр. (α,n−2) (определяемое по таблице критических точек распределения Стьюдента),то необходимо отклонить гипотезу о равенстве нулю коэффициента корреляции ,а следовательно,и об отсутствии гетероскедастичности.В противном случае гипотеза об отсутствии гетероскедастичности принимается.

Если в модели регрессии больше чем одна объясняющая переменная,то проверка гипотезы может осуществляться с помощьюt-статистики для каждой из них отдельно.

Тест Голдфелда−Квандта

Данный тест является наиболее популярным. При проведении проверки по этому критерию предполагается, что случайный член распределен нормально и неподвержен автокорреляции. Этот тест применяется, когда есть предположение о том, что среднее квадратическое отклонение возмущений
(i =1, 2, …, n ) возрастает пропорционально значению некоторого фактора возрастает пропорционально значению фактора. Проверка проводится для всех факторов, включенных в модель, либо только для факторов, предположительно влияющих на однородность исследуемой совокупности. Проверка по некоторому фактору X j выполняется в следующей последовательности:

С помощью данного теста проверяется основная гипотеза :

H 0:гетероскедастичность отсутствует .

H 1: (альтернативная гипотеза)– дисперсии ошибок прямо пропорциональны значениям выбранной переменной .

Для проведения теста необходимо выполнить следующие действия:

Замечание. Если верна основная гипотеза, то статистика
имеет распределение Фишера сстепенями свободы.


если
, то нет оснований отвергнуть основную гипотезу;

если
, то основная гипотеза отклоняется в пользу альтернативной, т.е. существует прямо пропорциональная зависимость между дисперсиями ошибок и значениями выбранной переменной.

Тест Уайта

Тест ранговой корреляции Спирмена и тест Голдфедда-Квандта позволяют обнаружить лишь само наличие гетероскедастичности, но они не дают возможности проследить количественный характер зависимости дисперсий ошибок регрессии от значений регрессоров и, следовательно, не представляют каких-либо способов устранения гетероскедастичности.

Очевидно, для продвижения к этой цели необходимы некоторые дополнительные предположения относительно характера гетероскедастичности. В самом деле, без подобных предположений, очевидно, невозможно было бы оценить п параметров (п дисперсий ошибок регрессии ) с помощью п наблюдений.

Наиболее простой и часто употребляемый тест на гетероскедастичность - тест Уайта. При использовании этого теста предполагается, что дисперсии ошибок регрессии представляют собой одну и ту же функцию от наблюдаемых значений регрессоров, т.е.

=
(3)

Чаще всего функция
выбирается квадратичной, что соответствует тому, что средняя квадратическая ошибка регрессии зависит от наблюдаемых значений факторных переменных приближенно линейно. Гомоскедастичной выборке соответствует случай
= const.

Идея теста Уайта заключается в оценке функции (3) с помощью соответствующего уравнения регрессии для квадратов остатков:


(4)

где - случайный член.

Гипотеза об отсутствии гетероскедастичности (условие
= const) принимается в случае незначимости регрессии (4) в целом.

В большинстве современных пакетов, регрессию (4) не приходится осуществлять вручную - тест Уайта входит в пакет как стандартная подпрограмма. В этом случае функция
выбирается квадратичной, факторные переменные в (4) - это переменные рассматриваемой модели.

Недостатком метода является то, что факт невыявление гетероскедастичности еще не означает ее отсутствия.

    Обоснования введения в модель ведущих факторов. Понятие мультиколлинеарности.

Если в модель включаются два или более тесно взаимосвязанных фактора, то наряду с уравнением регрессии появляется и другая линейная зависимость. Подобное явление называемое мультиколлинеарностью, искажает величину коэффициентов регрессии, затрудняет их экономическую интерпретацию.

Мультиколлинеарность – это тесная зависимость между факторными признаками, включенными в модель.

Мультиколлинеарность:

Искажает величины параметров модели, которые имеют тенденцию к завышению;

Приводит к изменению смысла экономической интерпретации коэффициентов регрессии;

Вызывает слабую обусловленность системы нормальных уравнений.

Осложняет процесс определения наиболее существенных факторных признаков.

Решение проблемы мультиколлинеарности:

Установление наличия мультиколлинеарности;

Определение причин возникновения мультиколлинеарности.

Разработка мер по устранению мультиколлинеарности.

Причины возникновения мультиколлинеарности между признаками:

Изучаемые факторные признаки характеризуют одну и ту же сторону явления или процесса (например, показатели объёма произведённой продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется, так как оба характеризуют размер предприятия)

Использование в качестве факторных признаков, суммарное значение которых представляет собой постоянную величину (например, коэффициент годности и коэффициент износа основных фондов)

Факторные признаки, являющиеся элементами друг друга (например, затраты на производство продукции и себестоимости единицы продукции)

Факторные признаки, по экономическому смыслу дублирующие друг друга (например, прибыль и рентабельность продукции).

Способы определения наличия или отсутствия мультиколлинеарности:

Анализ матрицы коэффициентов парной корреляции – факторы могут быть признаны коллинеарными, если >0,8.

Исследование матрицы Х’X– если определитель матрицы Х’Xблизок к нулю, то это свидетельствует о наличии мультиколлинеарности.

Устранение мультиколлинеарности возможно посредством исключения из корреляционной модели одного или нескольких линейно связанных факторных признаков или преобразование исходных факторных признаков в новые, укрупнённые факторы. Опрос о том, какой из факторов следует отбросить, решается на основе качественного и логического анализа изучаемого явления.

Методы устранения или уменьшения мультиколлинеарности:

Сравнение значений линейных коэффициентов корреляции: при отборе факторов предпочтение отдаётся тому фактору, который более тесно, чем другие факторы, связан с результативным признаком, причём желательно, чтобы связь данного факторного признака с у была выше, чем его связь с другим факторным признаком, т.е. и .

Метод включения факторов: метод заключается в том, что в модель включаются факторы по одному в определённой последовательности. На первом шаге в модель вводится тот фактор, который имеет наибольший коэффициент корреляции с зависимой переменной. На втором и последующих шагах в модель включается фактор, который имеет наибольший коэффициент корреляции с остатками модели. После включения каждого фактора в модель, рассматриваются её характеристики, и модель проверяется на достоверность. Построение модели заканчивается, если модель перестаёт удовлетворять определённым условиям (например, k гдеn - число наблюдений;k число факторных признаков, включаемых в модель;l среднеквадратическая ошибка модели, полученная на предыдущем шаге и включающая (k -1) переменных)

Метод исключения факторов: метод состоит в том, что в модель включаются все факторы. Затем после построения уравнения регрессии из модели исключают фактор, коэффициент при котором незначим и имеет наименьшее значение t-критерия. После этого получают новое уравнение регрессии и снова проводят оценку значимости всех оставшихся коэффициентов регрессии. Процесс исключения факторов продолжается до тех пор, пока модель не начнёт удовлетворять определённым условиям и все коэффициенты регрессии не будут значимы.

    Оценка влияния отдельных факторов на результативный показатель по коэффициентам: детерминация, эластичность.

    Понятие об эконометрических моделях. Отличие эконометрических моделей от математических моделей. Спецификация и идентификация моделей.

    Однофакторная линейная модель регрессии. Определение параметров модели по МНК.

Уравнение линейной парной регрессии:

yx= где , – параметры модели; – случайная величина (величина остатка).

– свободный коэффициент (член) регрессионного уравнения. Не имеет экономического смысла и показывает значение результативного признака у, если факторный признак х=0.

Коэффициент регрессии показывает, на какую величину в среднем изменится результативный признак у, если переменную х увеличить на единицу измерения. Знак при коэффициенте регрессии показывает направление связи: при >0 – связь прямая; при <0 – связь обратная.

– независимая, нормально распределённая случайная величина, остаток с нулевым математическим ожиданием ( =0) и постоянной дисперсией (). Отражает тот факт, что изменение у будет неточно описываться изменением х, так как присутствуют другие факторы, не учтённые в данной модели.

Оценка параметров модели и осуществляется методом наименьших квадратов. Сущность метода наименьших квадратов заключается в том, что отыскиваются такие значения параметров модели ( и ), пери которых сумма квадратов отклонений фактических значений результативного признакаyi от вычисленных по уравнению регрессии будет наименьшей из всех возможных.

Гетероскедастичность (англ. Heterosсedasticity ) - понятие, используемое в эконометрике, означающее неоднородность наблюдений, выражающаяся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность противоположна понятию гомоскедастичность , которое означает однородность наблюдений, то есть постоянство дисперсии случайных ошибок модели.

Наличие гетероскедастичности случайных ошибок приводит к неэффективности оценок, полученных с помощью метода наименьших квадратов. Кроме того, в этом случае оказывается смещённой и несостоятельной классическая оценка ковариационной матрицы МНК-оценок параметров. Следовательно статистические выводы о качестве полученных оценок могут быть неадекватными. В связи с этим тестирование моделей на гетероскедастичность является одной из необходимых процедур при построении регрессионных моделей.

К тестам, позволяющим выявить наличие гетероскедас­тичности случайных остатков, относят тесты Гольдфельда - Квандта, Парка, Глейзера, Уайта, Бреуша - Патана, ранговой корреляции Спирмена и т.д.

Тест Гольдфельда -Квандта применяется, если случайные остатки предполагаются нормально распределенными вели­чинами и объем наблюдений достаточно большой. Процедура проверки следующая.

1. Все наблюдения упорядочивают по мере возрастания ка­кой-либо независимой переменной, которая, как пред­полагается, оказывает влияние на изменение дисперсии случайных остатков.

2. Упорядоченную совокупность делят на три группы, при­чем первая и последняя должны быть равного объема, с числом наблюдений, больших, чем число параметров модели регрессии. Пусть в первую и третью группы ото­брано по к наблюдений.

3. По первой и третьей группам находят параметры урав­нений регрессии той же структуры, что и исходное урав­нение регрессии, и остаточные суммы квадратов по ка­ждой модели.

4. Используя данные об остаточных суммах квадратов мо­делей первой и третьей групп, рассчитывают фактиче­ское значение F-критерия Фишера по формуле

где - большая остаточная сумма квадратов; - меньшая остаточная сумма квадратов.

5. Сравнивают фактическое значение F-критерия с таблич­ным, найденным для степеней сво­боды. Если F-фактическое больше табличного, то гипо­теза об отсутствии гетероскедастичности отклоняется.

Тесты Парка, Глейзера, Уайта и Бреуша - Пагана основы­ваются на предположении, что дисперсия случайных остатков представляет собой определенную функцию от некоторой не­зависимой переменной (или переменных). Перед применени­ем этих тестов по уравнению регрессии необходимо рассчи­тать случайные остатки .

Для теста Парка строят зависимость вида

, (69)

где - -e значение - независимой переменной, оказывающей вли­яние на дисперсию остатков; - случайный остаток.

По тесту Глейзера находят параметры целой серии урав­нений, задаваемых функцией

, (70)

где - какое-либо число, например и т.п.

Тест Уайта заключается в построении квадратичной фун­кции, включающей все независимые переменные, входя­щие в исходную модель, а также их попарные произведения. Включение попарных произведений независимых перемен­ных является необязательным, их можно опустить. Для случая с двумя переменными эта функция будет иметь вид

где - неизвестные параметры.

Тест Бреуша - Пагана предполагает исследование вли­яния на дисперсию остатков нескольких независимых пере­менных, которые включают в регрессию вида

где - -e значениям -й, -й, -й незави­симых переменных, оказывающих влияние на дисперсию остатков; - оценка дисперсии случайных остатков, рассчитанная по формуле

Остатки считаются гетероскедастичными, если параметр в функциях по тесту Парка (69) или тесту Глейзера (70) значим (для теста Глейзера - хотя бы при одном значении ). При проверке по тесту Уайта говорят, что остатки гетероскедастичны, если вся функция (71) значима по F-критерию Фишера.

Проверка гетероскедастичности по тесту Бреуша - Пагана заключается в расчете по функции (72) факторной суммы квадратов

которое сравнивается с табличным (число степеней свобо­ды равно , т.е. числу независимых переменных в мо­дели (72); уровень значимости равен . Нулевая гипотеза о гомоскедастичности случайных остатков отвергается, если

Тест ранговой корреляции Спирмена, так же как и ранее рассмотренные тесты, основывается на предположении о за­висимости (прямой или обратной) величины дисперсии слу­чайных остатков от значений какой-либо независимой пере­менной. Для проведения проверки по этому тесту значения случайных остатков, взятые по модулю, и значения этой пере­менной ранжируют (например, по возрастанию), а затем на­ходят коэффициент корреляции рангов Спирмена

,

где - разность между рангами -гo случайного остатка и -гo зна­чения независимой переменной.

Полученное значение коэффициента корреляции проверяют на значимость, рассчитывая фактическое значение - критерия Стьюдента (73) и сравнивая его с табличным значением при числе степеней свободы .

Если фактическое значение критерия больше таблично­го, то гипотеза о гомоскедастичности остатков отклоняется.

Проверим на гетероскедастичность модель регрессии из на­шего примера:

Рассчитаем случайные остатки для этой модели (табл. 9).

Таблица 9. Расчет случайных остатков для модели регрессии поступления налогов от количества занятых, объема отгрузки в обрабатывающих производствах и производства энергии

1422,20 4804,33 -3382,13 16 868,50 14 895,12 1973,38
2529,70 5056,17 -2526,47 18 019,40 13 781,67 4237,73
2629,10 5144,80 -2515,70 18 950,30 27 753,87 -8803,57
2764,30 4755,64 -1991,34 19 995,50 27 517,44 -7521,94
3347,50 7553,53 -4206,03 20 445,60 13 948,95 6496,65
3914,20 5263,55 -1349,35 21 220,80 29 518,94 -8298,14
4400,80 7241,83 -2841,03 21 360,00 20 644,76 715,24
5904,00 8992,88 -3088,88 21 418,80 19 152,00 2266,80
6956,70 7161,55 -204,85 21 477,10 22 791,19 -1314,09
7595,10 10 469,73 -2874,63 21 816,30 21 263,08 553,22
9257,80 14 251,91 994,11 22 824,90 14 496,10 8328,80
9317,10 5569,87 3747,23 23 579,30 17 021,68 6557,62
9978,80 12 356,21 -2377,41 23 702,60 14 531,28 9171,32
10 144,80 10 929,40 -784,60 24 007,20 22 773,85 1233,35
10 215,40 9619,74 595,66 27 581,20 31 028,32 -3447,12
11 349,50 14 390,38 -3040,88 28 057,50 32 314,79 -4257,29
12 046,90 14 174,13 -2127,23 29 815,50 31 859,41 -2043,91
12 061,40 14 898,60 -2837,20 32 236,50 31 936,40 300,10
12 104,20 17 000,04 -4895,84 32 657,40 32 494,15 163,25
13 042,40 10 214,84 2827,56 32 672,70 26 620,17 6052,53
13 104,30 13 167,07 -62,77 34 351,10 22 852,20 11 498,90
13 396,40 17 660,39 -4263,99 36 050,40 35 892,53 157,87
14 170,30 22 136,25 -7965,95 36 544,30 22 893,37 13 650,93
14 227,00 15 269,09 -1042,09 37 136,90 22 606,54 14 530,36


График зависимости случайных остатков от выровненного значения зависимой переменной имеет вид, представленный на рис. 5. Можно отметить определенное увеличение раз­броса точек в центральной части графика и уменьшение раз­броса для последних нескольких точек. Такая картина может свидетельствовать о наличии гетероскедастичности остатков.

Рисунок 5. Изменение дисперсии случайных остатков с ростом выровненного значения зависимой переменной

Применим для анализа дисперсии остатков рассмотренные выше тесты. Так как большинство тестов основано на гипоте­зе, что известна переменная, вызывающая гетероскедастичность остатков, обратимся сначала к тесту Уайта, в котором рассматриваются все независимые переменные, входящие в модель регрессии.

Используем короткую форму теста Уайта, без включения попарных произведений независимых переменных. Получим следующий результат:

Табличное значение F-критерия равно 2,33 (). Таким образом, по тесту Уайта нет оснований отвергнуть нулевую гипотезу о гомоскедастичности остатков. Отметим также, что все параметры незначимы, но наиболь­шее значение -критерия (и достаточно близкое к таблично­му) имеют параметры при переменной (табличное значение -критерия составило 2,02 ()). Таким обра­зом, переменная может быть рассмотрена в других тестах как возможная причина гетероскедастичности.

Тест Бреуша - Пагана позволяет рассматривать различные комбинации переменных в качестве объясняющих гетероске­дастичность остатков. Уравнение теста, включающее в себя все три независимые переменные, будет иметь вид

.

Табличное значение критерия равно 7,82 (), таким образом, нет оснований отвергнуть нулевую гипо­тезу о гомоскедастичности случайных остатков. Руководствуясь предположениями, сделанными в ходе анализа теста Уайта, проведем тест Бреуша - Пагана применительно только к пе­ременной . Получим следующие результаты:

.

Табличное значение критерия в данном случае равно 3,84 (), таким образом, мы отвергаем нулевую гипо­тезу о гомоскедастичности случайных остатков. Остатки гетероскедастичны по переменной . Анализ по тесту Бреуша - Пагана при необходимости можно продолжить, исследуя влияние на дисперсию случайных остатков других независи­мых переменных. Опираясь на выявленное влияние на дис­персию остатков переменной , проверим эту связь с помо­щью других тестов.

Использование критерия Гольдфельда - Квандта предпо­лагает упорядочивание данных, в нашем случае по перемен­ной .

Общий объем наблюдений составляет 48 регионов, т.е. их можно разделить на три равные группы по 16 наблюдений в каждой или по 18 наблюдений в первой и третьей группах и 12 наблюдений во второй. Так как критерий Гольдфельда - Квандта предполагает построение уравнений регрессии той же структуры, что и исходное уравнение, остановимся на втором варианте деления совокупности как обеспечивающим боль­шую достоверность регрессионного анализа (18 наблюдений на три коэффициента регрессии, т.е. по шесть наблюдений на каждый коэффициент).

Для первой и третьей совокупностей наблюдений най­дем параметры уравнений множественной регрессии вида и рассчитаем случайные остатки по ка­ждому из них. Получим следующие результаты.

Первая группа (минимальные значения ):

Подводя итоги выявления гетероскедастичности в нашем примере, отметим, что по ряду тестов (Бреуша - Пагана, Гольдфельда - Квандта, Глейзера) гипотеза о гомоскеда­стичности остатков была отвергнута, т.е. можно утверждать, что на дисперсию случайных остатков оказывает влияние пе­ременная . То, что гетероскедастичность была выявлена не во всех тестах, связано с тем, что разные тесты опираются на разные предпосылки о форме связи величины случайных остатков и независимой переменной. Исследование по тесту Глейзера показывает, что эта форма может быть описана вы­ражением , где - линейная функция.

Причинами гетероскедастичности случайных остатков мо­гут быть неверная функциональная форма уравнения регрес­сии (неверная спецификация модели), неоднородность иссле­дуемой совокупности. Соответственно способами устранения гетероскедастичности являются построение модели иной фун­кциональной формы и (или) разбиение совокупности на одно­родные группы. Если по каким-то причинам это сделать не­возможно или нежелательно, то для нахождения параметров уравнения регрессии можно воспользоваться обобщенным методом наименьших квадратов.

Постоянство дисперсии случайных остатков называют гомоскедастичностью случайных остатков. Напротив, если эта дисперсия не постоянна, то такое явление называют гетероскедастичностью случайных остатков.

Проверка выполнения требования гомоскедастичности случайных остатков может быть произведена визуально, на основе графика остатков, или с помощью специальных критериев.

Для проведения визуального анализа необходимо построить график зависимости величин случайных остатков от выровненного значения результирующей переменной. В случае гомоскедастичности "облако" случайных остатков находится в области, параллельной оси абсцисс (рис. 2.2, а). Все прочие случаи соответствуют гетероскедастичности случайных остатков (например, как на рис. 2.2, б). Аналогичные графики можно построить также для зависимости случайных остатков от значений конкретных независимых переменных, входящих в регрессию.

К тестам, позволяющим выявить наличие гетероскедастичности случайных остатков, относят тесты Гольдфельда – Квандта, Парка, Глейзера, Уайта, Бреуша – Пагана, ранговой корреляции Спирмена и т.д.

Тест Гольдфельда Квандта применяется, если случайные остатки предполагаются нормально распределенными величинами и объем наблюдений достаточно большой. Процедура проверки следующая.

  • 1. Все наблюдения упорядочивают по мере возрастания какой-либо независимой переменной, которая, как предполагается, оказывает влияние на изменение дисперсии случайных остатков.
  • 2. Упорядоченную совокупность делят на три группы, причем первая и последняя должны быть равного объема, с числом наблюдений, больших, чем число параметров модели регрессии. Пусть в первую и третью группы отобрано по к наблюдений.
  • 3. По первой и третьей группам находят параметры уравнений регрессии той же структуры, что и исходное уравнение регрессии, и остаточные суммы квадратов по каждой модели.
  • 4. Используя данные об остаточных суммах квадратов моделей первой и третьей групп, рассчитывают фактическое значение F-критерия Фишера по формуле

Рис. 2.2.

а – нет зависимости (гомоскедастичность); б – дисперсия остатков увеличивается с увеличением выровненного значения результата (один из случаев гетероскедастичности)

где – большая остаточная сумма квадратов; – меньшая остаточная сумма квадратов.

5. Сравнивают фактическое значение F-критерия с табличным, найденным для df l=df 2 = k-m- 1 степеней свободы. Если F-фактическое больше табличного, то гипотеза об отсутствии гетероскедастичности отклоняется.

Тесты Парка, Глейзера, Уайта и Бреуша – Пагана основываются на предположении, чт.д.сперсия случайных остатков представляет собой определенную функцию от некоторой независимой переменной (или переменных). Перед применением этих тестов по уравнению регрессии необходимо рассчитать случайные остатки е,.

Для теста Парка строят зависимость вида

(2.72)

где Χμ – і-e значение j-й независимой переменной, оказывающей влияние на дисперсию остатков; vf – случайный остаток.

По тесту Глейзера находят параметры целой серии уравнений, задаваемых функцией

(2.73)

где к – какое-либо число, например к – -1; -0,5; 0,5; 1 и т.п.

Тест Уайта заключается в построении квадратичной функции, включающей все независимые переменные, входящие в исходную модель, а также их попарные произведения. Включение попарных произведений независимых переменных является необязательным, их можно опустить. Для случая с двумя переменными эта функция будет иметь вид

где α, γ – неизвестные параметры.

Тест Бреуша Пагана предполагает исследование влияния на дисперсию остатков нескольких независимых переменных, которые включают в регрессию вида

где – i-е значения_/-й, (j + 1)-й,...(/ + к)-й независимых переменных, оказывающих влияние на дисперсию остатков; – оценка дисперсии случайных остатков, рассчитанная по формуле

Остатки считаются гетероскедастичными, если параметр а. в функциях по тесту Парка (2.72) или тесту Глейзера (2.73) значим (для теста Глейзера – хотя бы при одном значении к). При проверке по тесту Уайта говорят, что остатки гетероскедастичны, если вся функция (2.74) значима noF-критерию Фишера.

Проверка гетероскедастичности по тесту Бреуша – Пагана заключается в расчете по функции (2.75) факторной суммы квадратов

которое сравнивается с табличным (число степеней свободы равно df = к + 1, т.е. числу независимых переменных в модели (2.75); уровень значимости равен а. Нулевая гипотеза о гомоскедастичности случайных остатков отвергается, если

Тест ранговой корреляции Спирмена, так же как и ранее рассмотренные тесты, основывается на предположении о зависимости (прямой или обратной) величины дисперсии случайных остатков от значений какой-либо независимой переменной. Для проведения проверки по этому тесту значения случайных остатков, взятые по модулю, и значения этой переменной ранжируют (например, по возрастанию), а затем находят коэффициент корреляции рангов Спирмена

где dj – разность между рангами і-го случайного остатка и і-го значения независимой переменной.

Полученное значение коэффициента корреляции проверяют на значимость, рассчитывая фактическое значение t-критерия Стьюдента (2.76) и сравнивая его с табличным значением при числе степеней свободы df=n- 2.

Если фактическое значение критерия больше табличного, то гипотеза о гомоскедастичности остатков отклоняется.

Проверим на гетероскедастичность модель регрессии из нашего примера:

Рассчитаем случайные остатки е для этой модели (табл. 2.5).

Таблица 2.5. Расчет случайных остатков для модели регрессии поступления налогов от количества занятых, объема отгрузки в обрабатывающих производствах и производства энергии

График зависимости случайных остатков от выровненного значения зависимой переменной имеет вид, представленный на рис. 2.3. Можно отметить определенное увеличение разброса точек в центральной части графика и уменьшение разброса для последних нескольких точек. Такая картина может свидетельствовать о наличии гетероскедастичности остатков.

Применим для анализа дисперсии остатков рассмотренные выше тесты. Так как большинство тестов основано на гипотезе, что известна переменная, вызывающая гетероскедастичность остатков, обратимся сначала к тесту Уайта, в котором рассматриваются все независимые переменные, входящие в модель регрессии.

Используем короткую форму теста Уайта, без включения попарных произведений независимых переменных. Получим следующий результат:

Рис. 2.3.

Табличное значение F-критерия равно 2,33 (а = 0,05; d/j = = 6; d/2 = 41). Таким образом, по тесту Уайта нет оснований отвергнуть нулевую гипотезу о гомоскедастичности остатков. Отметим также, что все параметры незначимы, но наибольшее значение ί-критерия (и достаточно близкое к табличному) имеют параметры при переменной х3 (табличное значение t-критерия составило 2,02 (а = 0,05; d/ = 41)). Таким образом, переменная х3 может быть рассмотрена в других тестах как возможная причина гетероскедастичности.

Тест Бреуша – Пагана позволяет рассматривать различные комбинации переменных в качестве объясняющих гетероскедастичность остатков. Уравнение теста, включающее в себя все три независимые переменные, будет иметь вид

Табличное значение критерия χ2 равно 7,82 (а = 0,05; df = = 3), таким образом, нет оснований отвергнуть нулевую гипотезу о гомоскедастичности случайных остатков. Руководствуясь предположениями, сделанными в ходе анализа теста Уайта, проведем тест Бреуша – Пагана применительно только к переменной х3. Получим следующие результаты:

Табличное значение критерия χ2 в данном случае равно 3,84 = 0,05; df= 1), таким образом, мы отвергаем нулевую гипотезу о гомоскедастичности случайных остатков. Остатки гетероскедастичны по переменной х3. Анализ по тесту Бреуша – Пагана при необходимости можно продолжить, исследуя влияние на дисперсию случайных остатков других независимых переменных. Опираясь на выявленное влияние на дисперсию остатков переменной х3, проверим эту связь с помощью других тестов.

Использование критерия Гольдфельда – Квандта предполагает упорядочивание данных, в нашем случае по переменной х3.

Общий объем наблюдений составляет 48 регионов, т.е. их можно разделить на три равные группы по 16 наблюдений в каждой или по 18 наблюдений в первой и третьей группах и 12 наблюдений во второй. Так как критерий Гольдфельда – Квандта предполагает построение уравнений регрессии той же структуры, что и исходное уравнение, остановимся на втором варианте деления совокупности как обеспечивающим большую достоверность регрессионного анализа (18 наблюдений на три коэффициента регрессии, т.е. по шесть наблюдений на каждый коэффициент).

Для первой и третьей совокупностей наблюдений найдем параметры уравнений множественной регрессии вида и рассчитаем случайные остатки по каждому из них. Получим следующие результаты.

Первая группа (минимальные значения х3):

Третья группа (максимальные значения х3):

Разделим большую остаточную сумму квадратов (по третьей группе) на меньшую (по первой группе): = 18,58. Табличное значение F-критерия равно 2,48 при df t = df 2= = 18 – 4 = 14 степенях свободы и уровне значимости 0,05. Следовательно, дисперсия остатков зависит от величины значений переменной х3, гипотеза о гомоскедастичности остатков отвергается.

Расчеты по тестам Парка и Глейзера по переменной х3 приводят к следующим результатам.

Тест Парка:

Тест Глейзера:

Табличное значение критерия Стьюдента равно 2,0129 (а = 0,05; df = 46). Таким образом, по тесту Глейзера при k = 1 и 0,5 гипотеза о гомоскедастичности остатков отвергается, по тесту Парка – нет оснований отвергнуть нулевую гипотезу.

Оценка гетероскедастичности остатков по переменной х3 с использованием коэффициента ранговой корреляции Спирмена привела к следующему результату:

То есть коэффициент ранговой корреляции незначим (табличное значение критерия Стьюдента, так же как в тестах Глейзера и Парка, равно 2,0129), нет оснований отвергнуть нулевую гипотезу о гомоскедастичности остатков.

Подводя итоги выявления гетероскедастичности в нашем примере, отметим, что по ряду тестов (Бреуша – Пагана, Гольдфельда – Квандта, Глейзера) гипотеза о гомоскедастичности остатков была отвергнута, т.е. можно утверждать, что на дисперсию случайных остатков оказывает влияние переменная х3. То, что гетероскедастичность была выявлена не во всех тестах, связано с тем, что разные тесты опираются на разные предпосылки о форме связи величины случайных остатков и независимой переменной. Исследование по тесту Глейзера показывает, что эта форма может быть описана выражением σ ε = Дх3), где / – линейная функция.

Причинами гетероскедастичности случайных остатков могут быть неверная функциональная форма уравнения регрессии (неверная спецификация модели), неоднородность исследуемой совокупности. Соответственно способами устранения гетероскедастичности являются построение модели иной функциональной формы и(или) разбиение совокупности на однородные группы. Если по каким-то причинам это сделать невозможно или нежелательно, т.д.я нахождения параметров уравнения регрессии можно воспользоваться обобщенным методом наименьших квадратов.

Гетероскедастичность

Случайной ошибкой называется отклонение в линейной модели множественной регрессии:

εi=yi–β0–β1x1i–…–βmxmi

В связи с тем, что величина случайной ошибки модели регрессии является неизвестной величиной, рассчитывается выборочная оценка случайной ошибки модели регрессии по формуле:

где ei – остатки модели регрессии.

Термин гетероскедастичность в широком смысле понимается как предположение о дисперсии случайных ошибок модели регрессии.

При построении нормальной линейной модели регрессии учитываются следующие условия, касающиеся случайной ошибки модели регрессии:

6) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:

7) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:

8) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т. е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю):

Второе условие

означает гомоскедастичность (homoscedasticity – однородный разброс) дисперсий случайных ошибок модели регрессии.

Под гомоскедастичностью понимается предположение о том, что дисперсия случайной ошибки βi является известной постоянной величиной для всех наблюдений.

Но на практике предположение о гомоскедастичности случайной ошибки βi или остатков модели регрессии ei выполняется не всегда.

Под гетероскедастичностью (heteroscedasticity – неоднородный разброс) понимается предположение о том, что дисперсии случайных ошибок являются разными величинами для всех наблюдений, что означает нарушение второго условия нормальной линейной модели множественной регрессии:

Гетероскедастичность можно записать через ковариационную матрицу случайных ошибок модели регрессии:

Тогда можно утверждать, что случайная ошибка модели регрессии βi подчиняется нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2Ω:

где Ω – матрица ковариаций случайной ошибки.

Если дисперсии случайных ошибок

модели регрессии известны заранее, то проблема гетероскедастичности легко устраняется. Однако в большинстве случаев неизвестными являются не только дисперсии случайных ошибок, но и сама функция регрессионной зависимости y=f(x), которую предстоит построить и оценить.

Для обнаружения гетероскедастичности остатков модели регрессии необходимо провести их анализ. При этом проверяются следующие гипотезы.

Основная гипотеза H0 предполагает постоянство дисперсий случайных ошибок модели регрессии, т. е. присутствие в модели условия гомоскедастичности:

Альтернативная гипотеза H1 предполагает непостоянство дисперсиий случайных ошибок в различных наблюдениях, т. е. присутствие в модели условия гетероскедастичности:

Гетероскедастичность остатков модели регрессии может привести к негативным последствиям:

1) оценки неизвестных коэффициентов нормальной линейной модели регрессии являются несмещёнными и состоятельными, но при этом теряется свойство эффективности;

2) существует большая вероятность того, что оценки стандартных ошибок коэффициентов модели регрессии будут рассчитаны неверно, что конечном итоге может привести к утверждению неверной гипотезы о значимости коэффициентов регрессии и значимости модели регрессии в целом.

Гомоскедастичность

Гомоскедастичность остатков означает, что дисперсия каждого отклонения одинакова для всех значений x. Если это условие не соблюдается, то имеет место гетероскедастичность. Наличие гетероскедастичности можно наглядно видеть из поля корреляции.

Т.к. дисперсия характеризует отклонение то из рисунков видно, что в первом случае дисперсия остатков растет по мере увеличения x, а во втором – дисперсия остатков достигает максимальной величины при средних значениях величины x и уменьшается при минимальных и максимальных значениях x. Наличие гетероскедастичности будет сказываться на уменьшении эффективности оценок параметров уравнения регрессии. Наличие гомоскедастичности или гетероскедастичности можно определять также по графику зависимости остатков от теоретических значений .

Проверить наличие гетероскедастичности в модели. Объяснить полученные результаты.

Если остатки имеют постоянную дисперсию, они называются гомоскедастичными , но если они непостоянны, то гетероскедастичными . Гетероскедастичность приводит к тому, что коэффи­циенты регрессии больше не представляют собой лучшие оценки или не являются оценками с минимальной дисперсией, следова­тельно, они больше не являются наиболее эффективными коэф­фициентами.

Воздействие гетероскедастичности на оценку интервала прогнозирования и проверку гипотезы заключается в том, что хотя коэффициенты не смещены, дисперсии и, следовательно, стандартные ошибки этих коэффициентов будут смещены. Если смещение отрицательно, то оценочные стандартные ошибки бу­дут меньше, чем они должны быть, а критерий проверки будет больше, чем в реальности. Таким образом, мы можем сделать вывод, что коэффициент значим, когда он таковым не является. И наоборот, если смещение положительно, то оценочные ошиб­ки будут больше, чем они должны быть, а критерии проверки – меньше. Значит, мы можем принять нулевую гипотезу, в то вре­мя как она должна быть отвергнута.

Проверкой на гетероскедастичность служит тест Голдфелда-Кванта. Он требует, чтобы остатки были разделены на две груп­пы из наблюдений, одна группа с низкими, а другая – с высо­кими значениями. Обычно срединная одна шестая часть наблю­дений удаляется после ранжирования в возрастающем порядке, чтобы улучшить разграничение между двумя группами. Отсюда число остатков в каждой группе составляет , где пред­ставляет одну шестую часть наблюдений.

Критерий Голдфелда-Кванта – это отношение суммы квадра­тов отклонений (СКО) высоких остатков к СКО низких остатков:

Этот критерий имеет распределение с степе­нями свободы.

Чтобы решить проблему гетероскедастичности, нужно иссле­довать взаимосвязь между значениями ошибки и переменными и трансформировать регрессионную модель так, чтобы она отра­жала эту взаимосвязь. Это может быть достигнуто посредством регрессии значений ошибок по различным формам функций пе­ременной, которая приводит к гетероскедастичности, например,

,

где - независимая переменная (или какая-либо функция не­зависимой переменной), которая предположительно является причиной гетероскедастичности, а отражает степень взаимо­связи между ошибками и данной переменной, например, или и т. д.

Следовательно, дисперсия коэффициентов запишется:

.

Отсюда если , мы трансформируем регрессионную мо­дель к виду:

.

Если , т.е. дисперсия увеличивается в пропорции к квадрату рассматриваемой переменной , трансформация при­обретает вид:

.

Используя Eviews, можно провести проверку и устранение гетероскедастичности следующим образом:

Ø Запустить стандартную регрессию.

Ø Вычислить остатки.

Ø Запустить регрессию с использованием квадрата остатков как зависимой переменной и оценить зависимую переменную как независимую переменную (тест White).

Ø Оценить nR 2 , где n – объем выборки, R 2 – коэффициент детерминации.

Ø Использовать статистику с одной степенью свободы (в EVIEWS – используется F – статистика) для проверки существенности отличия nR 2 от нуля.

Ø Основным способом устранения гетероскедастичности является применение взвешенного метода наименьших квадратов.

Выбираем тест White (см. рис. 64).


Итог формы вывода представлен на рис. 65.