При проведении регрессионного анализа, основанного на методе наименьших квадратов, на практике следует обратить серьезное внимание на проблемы, связанные с выполнимостью свойств случайных отклонений моделей. Как мы отмечали ранее, свойства оценок коэффициентов регрессии напрямую зависят от свойств случайного члена в уравнении регрессии. Для получения качественных оценок необходимо следить за выполнимостью предпосылок МНК (условий Гаусса− Маркова), т. к. при их нарушении МНК может давать оценки с плохими статистическими свойствами. При этом существуют другие методы определения более точных оценок. Одной из ключевых предпосылок МНК является условие постоянства дисперсий случайных отклонений (см. параграф 5.1, предпосылка2 0 ):

дисперсия случайных отклонений ε i постоянна. D(ε i )=D(ε j ) =σ 2 для любых наблюдений i и j.

Выполнимость данной предпосылки называется гомоскедастич-

ностью (постоянством дисперсии отклонений). Невыполнимость данной предпосылки называется гетероскедастичностью (непостоянством дисперсий отклонений).

В данной главе мы подробно проанализируем суть гетероскедастичности, ее причины и последствия, а также приведем несколько способов смягчения этих последствий.

8.1. Суть гетероскедастичности

При рассмотрении выборочных данных требование постоянства дисперсии случайных отклонений может вызвать определенное недоумение в силу того, что при каждом i-м наблюдении имеется единственное значениеε i . Откуда же появляется разброс? Дело в том, что при рассмотрении выборочных данных мы имеем дело с конкретными реализациями зависимой переменной yi и соответственно c определенными случайными отклонениямиε i , i = 1, 2, ..., n. Но до осуществления выборки эти показатели априори могли принимать произвольные значения на основе некоторых вероятностных распределений. Одним из требований к этим распределениям является равенство дисперсий. Данное условие подразумевает, что несмотря на то что при каждом конкретном наблюдении случайное отклонение может быть большим либо маленьким, положительным либо отрицательным, не должно быть некой априорной причины, вызывающей большую

ошибку (отклонение) при одних наблюдениях и меньшую − при других.

Однако на практике гетероскедастичность не так уж и редка. Зачастую есть основания считать, что вероятностные распределения случайных отклонений ε i при различных наблюдениях будут различными. Это не означает, что случайные отклонения обязательно будут большими при определенных наблюдениях и малыми− при других, но это означает, что априорная вероятность этого велика. Поэтому важно понимать суть этого явления и его последствия.

На рис. 8.1 приведены два примера линейной регрессии − зависимости потребления С от дохода I: C =β 0 +β 1 I +ε .

В обоих случаях с ростом дохода растет среднее значение потребления. Но если на рис. 8.1, а дисперсия потребления остается одной и той же для различных уровней дохода, то на рис. 8.1,б при аналогичной зависимости среднего потребления от дохода дисперсия потребления не остается постоянной, а увеличивается с ростом дохода. Фактически это означает, что во втором случае субъекты с большим доходом в среднем потребляют больше, чем субъекты с меньшим доходом, и, кроме того, разброс в их потреблении более существенен для большего уровня дохода. Фактически люди с большими доходами имеют больший простор для распределения своего дохода. Реалистичность данной ситуации не вызывает сомнений. Разброс значений потребления вызывает разброс точек наблюдения относительно линии регрессии, что и определяет дисперсию случайных отклонений. Динамика изменения дисперсий (распределений) отклонений для данного примера проиллюстрирована на рис. 8.2. При гомоскедастичности

(рис. 8.2, а ) дисперсииε i постоянны, а при гетероскедастичности (рис. 8.2,б ) дисперсииε i изменяются (в нашем примере− увеличиваются).

а − гомоскедастичность

б − гетероскедастичность

Проблема гетероскедастичности в большей степени характерна для перекрестных данных и довольно редко встречается при рассмотрении временных рядов. Это можно объяснить следующим образом. При перекрестных данных учитываются экономические субъекты (потребители, домохозяйства, фирмы, отрасли, страны и т. п.), имеющие различные доходы, размеры, потребности и т. д. Но в этом случае возможны проблемы, связанные с эффектом масштаба. Во временных рядах обычно рассматриваются одни и те же показатели в различные моменты времени (например, ВНП, чистый экспорт, темпы инфляции

и т. д. в определенном регионе за определенный период времени). Однако при увеличении (уменьшении) рассматриваемых показателей с течением времени может возникнуть проблема гетероскедастичности.

8.2. Последствия гетероскедастичности

Как отмечалось в разделе 5.1, при рассмотрении классической линейной регрессионной модели МНК дает наилучшие линейные несмещенные оценки (BLUE-оценки) лишь при выполнении ряда предпосылок, одной из которых является постоянство дисперсии отклонений (гомоскедастичность):σ 2 (ε i ) =σ 2 для всех наблюдений i, i = 1, 2, …, n.

При невыполнимости данной предпосылки (при гетероскедастичности) последствия применения МНК будут следующими.

1. Оценки коэффициентов по-прежнему остаются несмещенными и линейными.

2. Оценки не будут эффективными (т. е. они не будут иметь наименьшую дисперсию по сравнению с другими оценками данного параметра). Они не будут даже асимптотически эффективными. Увеличение дисперсии оценок снижает вероятность получения максимально точных оценок.

3. Дисперсии оценок будут рассчитываться со смещением. Смещенность появляется вследствие того, что необъясненная уравнением

менных), которая используется при вычислении оценок дисперсий всех коэффициентов (см. параграф 6.2, (6.23)), не является более несмещенной.

4. Вследствие вышесказанного все выводы, получаемые на основе соответствующих t- и F-статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы, получаемые при стандартных проверках качества оценок, могут быть ошибочными и приводить к неверным заключениям по построенной модели. Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t-статистики будут завышены. Это может привести к признанию статистически значимыми коэффициентов, таковыми на самом деле не являющимися.

Причину неэффективности оценок МНК при гетероскедастичности легко пояснить следующим примером парной регрессии.

Из рис. 8.3 видно, что для каждого конкретного значения хi СВ Х переменная Y принимает значение уi из некоторого множества, имеющего свое распределение, отличное одно от другого в силу непостоянства дисперсий (сравните распределения для значений у1 и уn ).

По МНК минимизируется сумма квадратов отклонений

∑e i 2 = ∑(y i −b 0 −b 1 x i ) 2 .

Но в этом случае каждое конкретное значение ei 2 в данной сумме имеет одинаковый “вес” вне зависимости от того, получено оно из распределения с маленькой дисперсией (например, e1 2 ) или с большой (например, e2 n ). Но это противоречит логике, т. к. точка, полученная

из распределения с меньшей дисперсией, более точно определяет направление линии регрессии. Поэтому она должна иметь больший “вес”, чем точка из распределения с большей дисперсией. Следовательно, методы оценивания, учитывающие “веса” точек наблюдений, позволяют получать более точные (эффективные) оценки. Учет “весов” точек характерен, например, для метода взвешенных наименьших квадратов, рассмотренного ниже.

8.3. Обнаружение гетероскедастичности

В ряде случаев на базе знаний характера данных появление проблемы гетероскедастичности можно предвидеть и попытаться устранить этот недостаток еще на этапе спецификации. Однако значительно чаще эту проблему приходится решать после построения уравнения регрессии.

Обнаружение гетероскедастичности в каждом конкретном случае является довольно сложной задачей, т. к. для знания дисперсий отклонений σ 2 (еi ) необходимо знать распределение СВ Y, соответствующее выбранному значению хi СВ Х. На практике зачастую для каждого конкретного значения хi определяется единственное значение уi , что не позволяет оценить дисперсию СВ Y для данного хi .

Естественно, не существует какого-либо однозначного метода определения гетероскедастичности. Однако к настоящему времени для такой проверки разработано довольно большое число тестов и критериев для них. Рассмотрим наиболее популярные и наглядные: графический анализ отклонений, тест ранговой корреляции Спирмена, тест Парка, тест Глейзера, тест Голдфелда− Квандта.

8.3.1. Графический анализ остатков

Использование графического представления отклонений позволяет определиться с наличием гетероскедастичности. В этом случае по оси абсцисс откладывается объясняющая переменная Х (либо линейная комбинация объясняющих переменных Y = b0 + b1 X1 + ... +

Bm Xm ), а по оси ординат либо отклонения еi , либо их квадраты ei 2 . Примеры таких графиков приведены на рис. 8.4.

ei 2

ei 2

ei 2

ei 2

ei 2

На рис. 8.4, а все отклонения ei 2 находятся внутри полуполосы постоянной ширины, параллельной оси абсцисс. Это говорит о независимости дисперсий ei 2 от значений переменной Х и их постоянстве, т.е. в этом случае мы находимся в условиях гомоскедастичности.

На рис. 8.4, б − г наблюдаются некие систематические изменения в соотношениях между значениями xi переменной Х и квадратами от-

клонений ei 2 . Рис. 8.4,б соответствует примеру из параграфа 8.1. На

рис. 8.4, в отражена линейная; 8.4,г − квадратичная; 8.4,д − гиперболическая зависимости между квадратами отклонений и значениями объясняющей переменной Х. Другими словами, ситуации, представленные на рис. 8.4,б − д , отражают большую вероятность наличия гетероскедастичности для рассматриваемых статистических данных.

Отметим, что графический анализ отклонений является удобным и достаточно надежным в случае парной регрессии. При множественной регрессии графический анализ возможен для каждой из объясняющих переменных Хj , j = 1, 2, …, m отдельно. Чаще же вместо объясняющих переменных Хj по оси абсцисс откладывают значения yi ,

получаемые из эмпирического уравнения регрессии. Поскольку по уравнению множественной линейной регрессии yi является линейной

комбинацией хij , j = 1, 2, … , m, то график, отражающий зависимость ei 2 от yi , может указать на наличие гетероскедастичности аналогично

ситуациям на рис. 8.4, б − д . Такой анализ наиболее целесообразен при большом количестве объясняющих переменных.

8.3.2. Тест ранговой корреляции Спирмена

При использовании данного теста предполагается, что дисперсия отклонения будет либо увеличиваться, либо уменьшаться с увеличением значения Х. Поэтому для регрессии, построенной по МНК, абсолютные величины отклонений еi и значения хi СВ Х будут коррелированы. Значения хi и еi ранжируются (упорядочиваются по величинам). Затем определяется коэффициент ранговой корреляции:

r x,e= 1 − 6

∑d i 2

n(n2

− 1)

где di − разность между рангами хi и ei , i = 1, 2, … , n; n− число наблюдений.

Например, если х20 является 25-м по величине среди всех наблюдений Х; а е20 − является 32-м, то di = 25− 32=− 7.

Доказано, что если коэффициент корреляции ρ х,е для генеральной совокупности равен нулю, то статистика

rx,e n− 2

1 − r2

имеет распределение Стьюдента с числом степеней свободы ν = n− 2. Следовательно, если наблюдаемое значение t-статистики, вычисленное по формуле (8.2), превышает tкр. = tα ,n − 2 (определяемое по таблице критических точек распределения Стьюдента), то необходимо отклонить гипотезу о равенстве нулю коэффициента корреляцииρ х,е , а следовательно, и об отсутствии гетероскедастичности. В противном

случае гипотеза об отсутствии гетероскедастичности принимается. Если в модели регрессии больше чем одна объясняющая пере-

менная, то проверка гипотезы может осуществляться с помощью t- статистики для каждой из них отдельно.

8.3.3. Тест Парка

Р. Парк предложил критерий определения гетероскедастичности, дополняющий графический метод некоторыми формальными зависимостями. Предполагается, что дисперсия σ i 2 =σ 2 (ei ) является функцией i-го значения хi объясняющей переменной. Парк предложил следующую функциональную зависимость

Так как дисперсии уi 2 обычно неизвестны, то их заменяют оценками квадратов отклонений ei 2 .

Критерий Парка включает следующие этапы:

Строится уравнение регрессии yi = b0 + b1 xi + еi .

Для каждого наблюдения определяются lnei 2

Ln(yi − yi )2 .

Строится регрессия

ln ei 2 =α +β lnxi + vi ,

где α = lnσ 2 .

В случае множественной регрессии зависимость (8.5) строится для каждой объясняющей переменной.

4. Проверяется статистическая значимость коэффициента β уравнения

(8.5) на основе t-статистики t =в . Если коэффициентβ статисти- Sв

чески значим, то это означает наличие связи между lnei 2 и lnxi , т. е. гетероскедастичности в статистических данных.

Отметим, что использование в критерии Парка конкретной функциональной зависимости (8.5) может привести к необоснованным выводам (например, коэффициент β статистически незначим, а гетероскедастичность имеет место). Возможна еще одна проблема. Для случайного отклонения vi в свою очередь может иметь место гетероскедастичность. Поэтому критерий Парка дополняется другими тестами.

8.3.4. Тест Глейзера

Тест Глейзера по своей сути аналогичен тесту Парка и дополняет его анализом других (возможно, более подходящих) зависимостей между дисперсиями отклонений σ i и значениями переменной хi . По данному методу оценивается регрессионная зависимость модулей отклонений ei (тесно связанных сσ i 2 ) от хi . При этом рассматриваемая зависимость моделируется следующим уравнением регрессии:

| ei | =α +β хi k + vi .

Изменяя значения k, можно построить различные регрессии. Обычно k = …, − 1,− 0.5, 0.5, 1, … Статистическая значимость коэффициентаβ в каждом конкретном случае фактически означает наличие гетероскедастичности. Если для нескольких регрессий (8.6) коэффициентβ оказывается статистически значимым, то при определении характера зависимости обычно ориентируются на лучшую из них.

Отметим, что так же, как и в тесте Парка, в тесте Глейзера для отклонений vi может нарушаться условие гомоскедастичности. Однако во многих случаях предложенные модели являются достаточно хорошими для определения гетероскедастичности.

8.3.5. Тест Голдфелда − Квандта

В данном случае также предполагается, что стандартное отклонение σ i =σ (ε i ) пропорционально значению хi переменной Х в этом

наблюдении, т. е. уi 2 = у2 xi 2 . Предполагается, чтоε i имеет нормальное распределение и отсутствует автокорреляция остатков.

Тест Голдфелда− Квандта состоит в следующем:

1. Все n наблюдений упорядочиваются по величине Х.

2. Вся упорядоченная выборка после этого разбивается на три подвыборки размерностей k, (n − 2k), k соответственно.

3. Оцениваются отдельные регрессии для первой подвыборки (k первых наблюдений) и для третьей подвыборки (k последних наблюдений). Если предположение о пропорциональности дисперсий от-

клонений значениям Х верно, то дисперсия регрессии (сумма квад-

ратов отклонений S1 = ∑ ei 2 ) по первой подвыборке будет сущест-

венно меньше дисперсии регрессии (суммы квадратов отклонений

S3 = ∑ ei 2 ) по третьей подвыборке.

i= n-k

4. Для сравнения соответствующих дисперсий строится следующая F-статистика:

S3 /(k− m− 1)

S 3 .

S /(k − m− 1)

Здесь (k − m− 1)− число степеней свободы соответствующих выборочных дисперсий (m− количество объясняющих переменных в уравнении регрессии).

При сделанных предположениях относительно случайных отклонений построенная F-статистика имеет распределение Фишера с числами степеней свободыν 1 =ν 2 = k− m− 1.

5. Если Fнабл. =

> Fкр. = F

То гипотеза об отсутствии гетероскеда-

стичности отклоняется (здесь α − выбранный уровень значимости).

Естественным является вопрос, какими должны быть размеры подвыборок для принятия обоснованных решений. Для парной регрессии Голфелд и Квандт предлагают следующие пропорции: n = 30, k = 11; n = 60, k = 22.

Для множественной регрессии данный тест обычно проводится для той объясняющей переменной, которая в наибольшей степени связана с σ i . При этом k должно быть больше, чем (m + 1). Если нет уверенности относительно выбора переменной Xj , то данный тест может осуществляться для каждой из объясняющих переменных.

Этот же тест может быть использован при предположении об обратной пропорциональности между σ i и значениями объясняющей переменной. При этом статистика Фишера примет вид: F = S1 /S3 .

8.4. Методы смягчения проблемы гетероскедастичности

Как отмечалось в разделе 8.2, гетероскедастичность приводит к неэффективности оценок, несмотря на их несмещенность. Это может привести к необоснованным выводам по качеству модели. Поэтому при установлении гетероскедастичности возникает необходимость преобразования модели с целью устранения данного недостатка. Вид преобразования зависит от того, известны или нет дисперсии σ i 2 отклоненийε i .

8.4.1. Метод взвешенных наименьших квадратов (ВНК)

Данный метод применяется при известных для каждого наблюдения значениях σ i 2 . В этом случае можно устранить гетероскедастичность, разделив каждое наблюдаемое значение на соответствующее ему значение дисперсии. В этом суть метода взвешенных наименьших квадратов.

Для простоты изложения опишем ВНК на примере парной ре-

yi =β 0 +β 1 xi +ε i .

Разделим обе части (9.7) на известное σ i

уi 2

В 0

В 1

x i +

Уi * ,

xi * ,

Zi , получим уравнение

регрессии без свободного члена, но с дополнительной объясняющей переменной Z и с “преобразованным” отклонением v:

уi * =β 0 zi +β 1 xi * + vi .

При этом для vi выполняется условие гомоскедастичности. Действительно,

уi 2 (vi )= M(vi − M(vi ))2 = M(vi 2 )− M2 (vi ) .

Так как по предпосылке 1 0 МНК M(ei ) = 0, то M(vi )=

M(ei )= 0, и

уi 2

тогда уi 2 (vi )= M(vi 2 )=

ei 2

M(ei 2 )=

M(ei − M(ei ))2 =

уi 2 = 1= const.

уi 2

уi 2

уi 2

уi 2

Следовательно, для преобразованной модели (8.10) выполняются предпосылки 1 0 − 5 0 МНК. В этом случае оценки, полученные по МНК, будут наилучшими линейными несмещенными оценками.

Таким образом, метод взвешенных наименьших квадратов включает следующие этапы:

1. Каждую из пар наблюдений (х i , уi ) делят на известную величинуσ i . Тем самым наблюдениям с наименьшими дисперсиями придаются наибольшие “веса”, а с максимальными дисперсиями− наименьшие “веса”. Действительно, наблюдения с меньшими дисперсиями отклонений будут более значимыми при оценке коэффициентов регрессии, чем наблюдения с большими дисперсиями. Учет этого факта увеличивает вероятность получения более точных оценок.

1 2. По МНК для преобразованных значений

I ,i строится

у i у i

уравнение регрессии без свободного члена с гарантированными качествами оценок.

8.4.2. Дисперсии отклонений не известны

Для применения ВНК необходимо знать фактические значения дисперсий уi 2 отклонений. На практике такие значения известны крайне редко. Следовательно, чтобы применить ВНК, необходимо сделать реалистические предположения о значениях уi 2 .

Например, может оказаться целесообразным предположить, что дисперсии уi 2 отклоненийε i пропорциональны значениям хi (рис.8.5,а ) или значениям хi 2 (рис. 8.5,б ).

уi 2

уi 2

1. Дисперсии σ i 2 пропорциональны хi (рис. 8.5, а).

уi 2 =σ 2 хi (σ 2 − коэффициент пропорциональности).

Тогда уравнение (8.9) преобразуется делением его левой и правой частей на x i :

y i= a

1 +b x i +v i .

Несложно показать, что для случайных отклонений vi =

няется условие гомоскедастичности. Следовательно, для регрессии (8.11) применим обычный МНК. Действительно, в силу выполнимо-

сти предпосылки уi 2 =σ 2 (ε i ) =σ 2 хi имеем:

у2 (vi )= у2 (

1 у2 (еi )=

1 у2 xi = у2 = const.

Таким образом, оценив для (8.11) по МНК коэффициенты β 0 иβ 1 , затем возвращаются к исходному уравнению регрессии (8.8).

Если в уравнении регрессии присутствует несколько объясняющих переменных, можно поступить следующим образом. Вместо кон-

кретной объясняющей переменной Xj используетсяY исходного уравнения множественной линейной регрессии Y = b0 + b1 X1 + ... + bm Xm ,

т. е. фактически линейная комбинация объясняющих переменных. В этом случае получают следующую регрессию:

В 0

В 1

Иногда из всех объясняющих переменных выбирается наиболее подходящая, исходя из графического представления (рис. 8.4).

2. Дисперсия σ i 2 пропорциональна хi 2 (рис. 8.4, б).

В случае, если зависимость σ i 2 от хi целесообразнее выразить не линейной функцией, а квадратичной, то соответствующим преобразованием будет деление уравнения регрессии (8.8) на хi :

В 0

В 1 +

В 0

В1 + vi

Где vi =

По аналогии с вышеизложенным несложно показать, что для отклонений vi будет выполняться условие гомоскедастичности. После определения по МНК оценок коэффициентовβ 0 иβ 1 для уравнения (8.13) возвращаются к исходному уравнению (8.8).

Отметим, что для применения описанных выше преобразований существенную роль играют знания об истинных значениях дисперсий отклонений σ i 2 , либо предположения, какими эти дисперсии могут быть. Во многих случаях дисперсии отклонений зависят не от включенных в уравнение регрессии объясняющих переменных, а от тех, которые не включены в модель, но играют существенную роль в исследуемой зависимости. В этом случае они должны быть включены в модель. В ряде случаев для устранения гетероскедастичности необходимо изменить спецификацию модели (например, линейную на логлинейную, мультипликативную на аддитивную и т. п.).

В заключение отметим, что наличие гетероскедастичности не позволяет получить эффективные оценки, что зачастую приводит к необоснованным выводам по их качеству. Обнаружение гетероскедастичности - достаточно трудоемкая проблема и для ее решения разработано несколько методов (тестов). В случае установления наличия гетероскедастичности ее корректировка также представляет довольно серьезную проблему. Одним из возможных решений является метод взвешенных наименьших квадратов (при этом необходима определенная информация либо обоснованные предположения о величинах дисперсий отклонений). На практике имеет смысл попробовать несколько методов определения гетероскедастичности и способов ее корректировки (преобразований, стабилизирующих дисперсию).

Вопросы для самопроверки

1. В чем суть гетероскедастичности?

2. Какое из следующих утверждений верно, ложно или не определено:

а) вследствие гетероскедастичности оценки перестают быть эффективными и состоятельными; б) оценки и дисперсии оценок остаются несмещенными;

в) выводы по t- и F-статистикам являются ненадежными;

г) при наличии гетероскедастичности стандартные ошибки оценок будут заниженными; д) гетероскедастичность проявляется через низкое значение статистики Дар-

бина− Уотсона DW;

е) не существует общего теста для анализа гетероскедастичности;

ж) тест ранговой корреляции Спирмена основан на использовании t- статистики; з) тест Парка является частным случаем теста Глейзера;

и) использование метода взвешенных наименьших квадратов носит ограниченный характер, т. к. для его использования необходимо знать дисперсии отклонений;

к) если в парной регрессии дисперсия случайных отклонений пропорциональна величине объясняющей переменной (х), то для получения эффективных оценок необходимо все наблюдаемые значения поделить на х.

3. Приведите аргументы в пользу графического теста, теста Парка и теста Глейзера.

4. Приведите схему теста Голдфелда − Квандта.

5. В чем суть метода взвешенных наименьших квадратов (ВНК)?

6. Объясните кратко, почему при наличии гетероскедастичности ВНК позволяет получить более эффективные оценки, чем обычный МНК.

Упражнения и задачи

1. Пусть зависимость заработной платы (Y) от стажа работы (X) сотрудника выражена следующим уравнением регрессии:

Y = β 0 +β 1 X +γ D +ε ,

где D − фиктивная переменная, отражающая пол сотрудника. Как можно проверить предположение о том, что пол сотрудника не влияет на дисперсию случайных отклоненийε i ?

2. Приведены данные в условных единицах по доходам (Х) и расходам на непродовольственные товары (Y) для тридцати домохозяйств:

а) Определите по МНК оценки парного уравнения регрессии yi = b0 + b1 xi + ei . б) Оцените качество построенного уравнения.

в) Проведите графический анализ остатков.

г) Примените для указанных статистических данных ВНК предположение,

что σ 2 (ei ) =σ 2 xi 2 .

д) Примените к полученным в п. а) результатам тест ранговой корреляции Спирмена и тест Парка.

е) Определите, существенно ли повлияла гетероскедастичность на качество оценок в уравнении, построенном по МНК.

Для предприятий некоторой отрасли анализируют зависимость заработной

платы (Y) сотрудников в зависимости от масштаба (от количества сотрудни-

ков) предприятия (Х). Наблюдения по тридцати случайно отобранным пред-

приятиям представлены следующей таблицей:

а) Постройте уравнение регрессии Y на Х и оцените его качество.

б) Можно ли ожидать наличие гетероскедастичности в данном случае. Ответ поясните.

в) Проверьте наличие гетероскедастичности, используя тест Голдфелда− Квандта. Рекомендуется использовать разбиение, при котором k = 12.

г) Если предположить, что гетероскедастичность имеет место, и дисперсии отклонений пропорциональны значениям Х, то какое преобразование вы предложите, чтобы получить несмещенные, эффективные и состоятельные оценки.

д) Постройте новое уравнение регрессии на основе преобразования, осуществленного в предыдущем пункте, и оцените его качество.

е) Сравните результаты, полученные в пунктах а) и д).

4. Пусть для эмпирического уравнения парной регрессии Y = b0 + b1 X + e име-

ет место следующее соотношение M(ei 2 ) =σ 2 xi . Какое преобразование можно предложить, чтобы устранить проблему гетероскедастичности. Опишите поэтапно предложенную схему.

5. Пусть для регрессии Y = b0 + b1 X1 + b2 X2 + e, оцениваемой по ежегодным данным (1971− 1998), получены следующие результаты: сумма квадратов от-

клонений для данных 1971− 1980 гг. равна S1 =∑ ei 2 = 15, для данных 1981−

1998 гг. эта сумма равна S2 =∑ ei 2 = 50. С помощью теста Голдфелда− Квандта проверьте предположение о том, что дисперсия отклонений не постоянна (в частности, что дисперсия претерпела изменение где-то в 1981 г.).

6. Анализируется объем инвестиций для вымышленной страны. По данным с 1961 по 1990 г. построены два уравнения регрессии:

i t=

52.5 + 0.275gnpt

− 0.63ct ,

R2 = 0.98.

(t) = (12.5) (10.2)

0.27 −

gnpt

gnpt

gnpt − значения соответствующих показателей в момент времени t.

а) Что могло послужить причиной преобразования первого уравнения во второе?

б) Если причиной преобразования являлась гетероскедастичность, то какое предположение о дисперсии отклонений являлось основанием для данного преобразования?

в) Можно ли сравнить качества обоих уравнений на основе коэффициентов детерминации? Ответ поясните.

г) Должно ли преобразованное уравнение проходить через начало координат?

7. Выдвигается предположение, что средняя заработная плата наемных рабочих пропорциональна их стажу. Для анализа данного утверждения обследуются по 20 рабочих восьми категорий стажа. Получены следующие статистические данные:

[ 0, 5)[ 5, 10)[ 10, 15)[ 15, 20)[ 20, 25)[ 25, 30)[ 30, 35)[ 35, 40]

10000 12500 14300 18700 25400 29000 32000 34300

а) Постройте эмпирическое уравнение регрессии, в котором заработная плата является зависимой переменной, а стаж работы − объясняющей переменной (уравнение строится в предположение, что дисперсии отклонений постоянны).

г) Предполагая, что дисперсия отклонений пропорциональна трудовому стажу, постройте на основании тех же данных уравнение по методу взвешенных наименьших квадратов (ВНК).

д) Предполагая, что дисперсия отклонений пропорциональна квадрату величины трудового стажа, постройте по ВНК соответствующее уравнение регрессии.

е) Какое из трех предположений относительно дисперсии отклонений наиболее реалистично с вашей точки зрения?

8. Исследуется зависимость между доходом (Х) домохозяйства и его расходом

(Y) на продукты питания. Выборочные данные по 40 домохозяйствам представлены ниже.

Х 75.8 76.9 79.2 81.5 82.4 82.8 83.0 85.9 86.4 86.9 88.3 89.0

Y 26.1 20.0 19.8 21.2 29.0 17.3 23.5 22.0 18.3 13.7 14.5 27.3

а) Постройте эмпирическое уравнение регрессии Y на Х. б) Вычислите отклонения ei .

в) Проведите анализ модели на гетероскедастичность по тесту ранговой корреляции Спирмена.

г) Проведите графический анализ отклонений и выдвиньте предположение о зависимости дисперсии отклонений от значений Х.

д) На основании предыдущего пункта постройте новое уравнение регрессии, используя для этого ВНК.

9. Проводится анализ зависимости средней заработной платы от средней производительности на предприятиях различного масштаба. Проведенное обследование нашло отражение в следующей таблице.

Количество сотрудников

Стандартное

предприятия,

производительность,

отклонение з/п,

σ i ($)

− 4

− 9

− 19

− 49

− 99

− 199

− 499

− 999

− 1999

− 4999

в) Сравните полученные результаты. Какое из уравнений вы предпочтете и почему?

Проверить наличие гетероскедастичности в модели. Объяснить полученные результаты.

Если остатки имеют постоянную дисперсию, они называются гомоскедастичными , но если они непостоянны, то гетероскедастичными . Гетероскедастичность приводит к тому, что коэффи­циенты регрессии больше не представляют собой лучшие оценки или не являются оценками с минимальной дисперсией, следова­тельно, они больше не являются наиболее эффективными коэф­фициентами.

Воздействие гетероскедастичности на оценку интервала прогнозирования и проверку гипотезы заключается в том, что хотя коэффициенты не смещены, дисперсии и, следовательно, стандартные ошибки этих коэффициентов будут смещены. Если смещение отрицательно, то оценочные стандартные ошибки бу­дут меньше, чем они должны быть, а критерий проверки будет больше, чем в реальности. Таким образом, мы можем сделать вывод, что коэффициент значим, когда он таковым не является. И наоборот, если смещение положительно, то оценочные ошиб­ки будут больше, чем они должны быть, а критерии проверки – меньше. Значит, мы можем принять нулевую гипотезу, в то вре­мя как она должна быть отвергнута.

Проверкой на гетероскедастичность служит тест Голдфелда-Кванта. Он требует, чтобы остатки были разделены на две груп­пы из наблюдений, одна группа с низкими, а другая – с высо­кими значениями. Обычно срединная одна шестая часть наблю­дений удаляется после ранжирования в возрастающем порядке, чтобы улучшить разграничение между двумя группами. Отсюда число остатков в каждой группе составляет , где пред­ставляет одну шестую часть наблюдений.

Критерий Голдфелда-Кванта – это отношение суммы квадра­тов отклонений (СКО) высоких остатков к СКО низких остатков:

Этот критерий имеет распределение с степе­нями свободы.

Чтобы решить проблему гетероскедастичности, нужно иссле­довать взаимосвязь между значениями ошибки и переменными и трансформировать регрессионную модель так, чтобы она отра­жала эту взаимосвязь. Это может быть достигнуто посредством регрессии значений ошибок по различным формам функций пе­ременной, которая приводит к гетероскедастичности, например,

,

где - независимая переменная (или какая-либо функция не­зависимой переменной), которая предположительно является причиной гетероскедастичности, а отражает степень взаимо­связи между ошибками и данной переменной, например, или и т. д.

Следовательно, дисперсия коэффициентов запишется:

.

Отсюда если , мы трансформируем регрессионную мо­дель к виду:

.

Если , т.е. дисперсия увеличивается в пропорции к квадрату рассматриваемой переменной , трансформация при­обретает вид:

.

Используя Eviews, можно провести проверку и устранение гетероскедастичности следующим образом:

Ø Запустить стандартную регрессию.

Ø Вычислить остатки.

Ø Запустить регрессию с использованием квадрата остатков как зависимой переменной и оценить зависимую переменную как независимую переменную (тест White).

Ø Оценить nR 2 , где n – объем выборки, R 2 – коэффициент детерминации.

Ø Использовать статистику с одной степенью свободы (в EVIEWS – используется F – статистика) для проверки существенности отличия nR 2 от нуля.

Ø Основным способом устранения гетероскедастичности является применение взвешенного метода наименьших квадратов.

Выбираем тест White (см. рис. 64).


Итог формы вывода представлен на рис. 65.


Ответы на экзаменационные билеты по эконометрике Яковлева Ангелина Витальевна

57. Гетероскедастичность остатков модели регрессии

Случайной ошибкой называется отклонение в линейной модели множественной регрессии:

?i=yi–?0–?1x1i–…–?mxmi

В связи с тем, что величина случайной ошибки модели регрессии является неизвестной величиной, рассчитывается выборочная оценка случайной ошибки модели регрессии по формуле:

где ei – остатки модели регрессии.

Термин гетероскедастичность в широком смысле понимается как предположение о дисперсии случайных ошибок модели регрессии.

При построении нормальной линейной модели регрессии учитываются следующие условия, касающиеся случайной ошибки модели регрессии:

6) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:

7) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:

8) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т. е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю):

Второе условие

означает гомоскедастичность (homoscedasticity – однородный разброс) дисперсий случайных ошибок модели регрессии.

Под гомоскедастичностью понимается предположение о том, что дисперсия случайной ошибки ?i является известной постоянной величиной для всех наблюдений.

Но на практике предположение о гомоскедастичности случайной ошибки?i или остатков модели регрессии ei выполняется не всегда.

Под гетероскедастичностью (heteroscedasticity – неоднородный разброс) понимается предположение о том, что дисперсии случайных ошибок являются разными величинами для всех наблюдений, что означает нарушение второго условия нормальной линейной модели множественной регрессии:

Гетероскедастичность можно записать через ковариационную матрицу случайных ошибок модели регрессии:

Тогда можно утверждать, что случайная ошибка модели регрессии ?i подчиняется нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2? :

?i~N(0; G2?),

где ? – матрица ковариаций случайной ошибки.

Если дисперсии случайных ошибок

модели регрессии известны заранее, то проблема гетероскедастичности легко устраняется. Однако в большинстве случаев неизвестными являются не только дисперсии случайных ошибок, но и сама функция регрессионной зависимости y=f(x), которую предстоит построить и оценить.

Для обнаружения гетероскедастичности остатков модели регрессии необходимо провести их анализ. При этом проверяются следующие гипотезы.

Основная гипотеза H0 предполагает постоянство дисперсий случайных ошибок модели регрессии, т. е. присутствие в модели условия гомоскедастичности:

Альтернативная гипотеза H1 предполагает непостоянство дисперсиий случайных ошибок в различных наблюдениях, т. е. присутствие в модели условия гетероскедастичности:

Гетероскедастичность остатков модели регрессии может привести к негативным последствиям:

1) оценки неизвестных коэффициентов нормальной линейной модели регрессии являются несмещёнными и состоятельными, но при этом теряется свойство эффективности;

2) существует большая вероятность того, что оценки стандартных ошибок коэффициентов модели регрессии будут рассчитаны неверно, что конечном итоге может привести к утверждению неверной гипотезы о значимости коэффициентов регрессии и значимости модели регрессии в целом.

Из книги Ответы на экзаменационные билеты по эконометрике автора Яковлева Ангелина Витальевна

14. Оценка коэффициентов модели парной регрессии с помощью выборочного коэффициента регрессии Помимо метода наименьших квадратов, с помощью которого в большинстве случаев определяются неизвестные параметры модели регрессии, в случае линейной модели парной регрессии

Из книги автора

15. Оценка дисперсии случайной ошибки модели регрессии При проведении регрессионного анализа основная трудность заключается в том, что генеральная дисперсия случайной ошибки является неизвестной величиной, что вызывает необходимость в расчёте её несмещённой

Из книги автора

18. Характеристика качества модели регрессии Качеством модели регрессии называется адекватность построенной модели исходным (наблюдаемым) данным.Для оценки качества модели регрессии используются специальные показатели.Качество линейной модели парной регрессии

Из книги автора

35. Проверка гипотезы о значимости коэффициентов регрессии и модели множественной регрессии в целом Проверка значимости коэффициентов регрессии означает проверку основной гипотезы об их значимом отличии от нуля.Основная гипотеза состоит в предположении о незначимости

Из книги автора

39. Модели регрессии, нелинейные по факторным переменным При исследовании социально-экономических явлений и процессов далеко не все зависимости можно описать с помощью линейной связи. Поэтому в эконометрическом моделировании широко используется класс нелинейных

Из книги автора

40. Модели регрессии, нелинейные по оцениваемым коэффициентам Нелинейными по оцениваемым параметрам моделями регрессииназываются модели, в которых результативная переменная yi нелинейно зависит от коэффициентов модели?0…?n.К моделям регрессии, нелинейными по

Из книги автора

41. Модели регрессии с точками разрыва Определение. Моделями регрессии с точками разрыва называются модели, которые нельзя привести к линейной форме, т. е. внутренне нелинейные модели регрессии.Модели регрессии делятся на два класса:1) кусочно-линейные модели регрессии;2)

Из книги автора

44. Методы нелинейного оценивания коэффициентов модели регрессии Функцией потерь или ошибок называется функционал вида Также в качестве функции потерь может быть использована сумма модулей отклонений наблюдаемых значений результативного признака у от теоретических

Из книги автора

46. Проверка гипотезы о значимости нелинейной модели регрессии. Проверка гипотезы о линейной зависимости между переменными модели регрессии На нелинейные модели регрессии, которые являются внутренне линейными, т. е. сводимыми к линейному виду, распространяются все

Из книги автора

58. Тест Глейзера обнаружения гетероскедастичности остатков модели регрессии Существует несколько тестов на обнаружение гетероскедастичности остатков модели регрессии.Рассмотрим применение теста Глейзера на примере линейной модели парной регрессии.Предположим, что

Из книги автора

59. Тест Голдфелда-Квандта обнаружения гетероскедастичности остатков модели регрессии Основным условием проведения теста Голдфелда-Квандта является предположение о нормальном законе распределения случайной ошибки?i модели регрессии.Рассмотрим применение данного

Из книги автора

60. Устранение гетероскедастичности остатков модели регрессии Существует множество методов устранения гетероскедастичности остатков модели регрессии. Рассмотрим некоторые из них.Наиболее простым методом устранения гетероскедастичности остатков модели регрессии

Из книги автора

61. Автокорреляция остатков модели регрессии. Последствия автокорреляции. Автокорреляционная функция Автокорреляцией называется корреляция, возникающая между уровнями изучаемой переменной. Это корреляция, проявляющаяся во времени. Наличие автокорреляции чаще всего

Из книги автора

62. Критерий Дарбина-Уотсона обнаружения автокорреляции остатков модели регрессии Помимо автокорреляционной и частной автокорреляционной функций для обнаружения автокорреляции остатков модели регрессии используется критерий Дарбина-Уотсона. Однако данный критерий

Из книги автора

63. Устранение автокорреляции остатков модели регрессии В связи с тем, что наличие в модели регрессии автокорреляции между остатками модели может привести к негативным результатам всего процесса оценивания неизвестных коэффициентов модели, автокорреляция остатков

Из книги автора

67. Модели регрессии с переменной структурой. Фиктивные переменные При построении модели регрессии может возникнуть ситуация, когда в неё необходимо включить не только количественные, но и качественные переменные (например, возраст, образование, пол, расовую

Обнаружение гетероскедастичности в каждом конкретном случае является сложной задачей. Для знания дисперсий отклонений необходимо знать распределение случайной величины У, соответствующее выбранному значению х- { (для одного значения x t иметь набор значений У). На практике для каждого конкретного значения x i определяется единственное значение y v что не позволяет оценить дисперсию случайной величины У.

1 Бородич С. А. Эконометрика: учеб, пособие. Минск: Новое знание, 2001. С. 236.

Поэтому не существует какого-либо однозначного метода определения гетероскедастичности.

Для определения наличия в выборке гетероскедастичности рассмотрим следующие тесты: графический анализ остатков, тест ранговой корреляции Спирмена, тест Глейзера и тест Голдфельда - Квандта. Выбор обусловлен относительной простотой тестов и наиболее частым их употреблением.

Графический анализ остатков. Использование графического представления отклонений позволяет определиться с наличием или отсутствием в модели гетероскедастичности. В этом случае по оси абсцисс откладываются значения х х объясняющей переменной X, а в случае множественной регрессии - линейной комбинации объясняющих переменных

а по оси ординат - отклонения е,- или их квадраты ef, i- 1,2,..., п. Если все отклонения в, находятся внутри полосы постоянной ширины, а отклонения вf находятся внутри полуполосы постоянной ширины, параллельной оси абсцисс, это говорит о независимости дисперсий случайных отклонений ef от значений переменной X и их постоянстве, т.е. в этом случае выполняются условия гомоскедастичности. Отметим, что графический анализ отклонений является удобным и достаточно надежным в случае парной линейной регрессии. На рис. 5.2 приведен пример графика отклонений ef от соответствующего значения объясняющей переменной х х. Очевидно, что отклонения не укладываются в полуполосу постоянной ширины. В данной модели дисперсии случайных отклонений непостоянны. В модели присутствует гетероскедастичность.


Рис. 5.2. График отклонений случайной составляющей е? от величины объясняющей переменной х {

Тест ранговой корреляции Спирмена. Тест выполняется в предположении о том, что дисперсия случайного члена а, = а(е у) меняется с изменением значения х г Следовательно, абсолютные величины остатков е х и х г будут коррелированы. Для проверки того, что дисперсия случайного члена коррелирует с изменением.г, ранжируются величины.г, и |е,| и определяется коэффициент ранговой корреляции Спирмена

где Д - разность между рангами х, и |«г,-| {ранг - порядковый номер значения переменной в ранжированном ряду).

Проверка основной гипотезы # 0 (значимость г) проводится по Г-тесту:

Если У набл > ? кр = t a . v , то гипотеза Я 0 отклоняется, следовательно, имеет место гетероскедастичность. Критическое значение ? кр = t a . v берется по таблицам распределения Стыодента; здесь а - уровень значимости; v = п - 2 - число степеней свободы.

Тест Глейзера. В тесте Глейзера ошибка случайного члена базируется на более общих представлениях о значении объясняющей переменной. Например, ошибка случайного члена может аппроксимироваться выражением Gj = а + $х] + |е, |. Далее данная регрессионная зависимость оценивается при различных значениях параметра у, и выбирается наилучшая. Для оценок гетероскедастичность случайного отклонения аппроксимируется таким уравнением:

где Sj = е- - оценка ст г С помощью статистики Стьюдента проверяется основная гипотеза Я 0 - отсутствие гетероскедастичности. Гипотеза Я 0 отклоняется, если коэффициент b в уравнении (5.1) значимо отличается от нуля. Отметим, что для большинства экономических расчетов параметр у = 1.

Тест Голдфелда - Квандта. Тест выполняется в предположении о том, что стандартное отклонение а, = а(е;) пропорционально значению переменной X в этом наблюдении, т.е. of - o 2 xf,i =1,2,..., п. Второе предположение - е, имеет нормальное распределение и отсутствует автокорреляция остатков.

Последовательность выполнения теста Голдфелда - Квандта следующая.

  • 1. Все п наблюдений упорядочиваются по величине X.
  • 2. Вся упорядоченная выборка после этого разбивается на три группы

(подвыборки) размерностей k, (п - 2k), k соответственно ().

3. Оцениваются отдельно регрессии для первой подвыборки {k первых наблюдений) и для третьей подвыборки (k последних наблюдений). Если предположение о пропорциональности дисперсий отклонений значениям X верно, то дисперсия регрессии по первой подвыборке (сумма квадратов отклонений)

будет существенно меньше дисперсии регрессии по третьей подвыборке (суммы квадратов отклонений)

4. Для сравнения дисперсий 5, и 5 3 строится следующая /--статистика:

где р - число объясняющих переменных в каждом уравнении регрессии. Если 5, > 5 3 , то

При сделанных предположениях относительно случайных отклонений построенная /"-статистика имеет распределение Фишера с числами степеней свободы v, = v 3 = k - р - 1.

то гипотеза об отсутствии гетероскедастичности отклоняется. Здесь а - выбранный уровень значимости.

Отметим, что этот тест предназначен для анализа больших массивов данных и не всегда его результаты совпадают с результатами других тестов при недостаточном числе наблюдений. В случае множественной линейной регрессии проверка гетероскедастичности производится по каждой из объясняющих переменных.

Пример 5.1

Имеются условные данные по выпуску продукции у на одного работника х (табл. 5.1).

Таблица 5.1

Исходные данные к примеру 5.1

Построим модель парной линейной регрессии и проверим наличие гетероскедастичности.

Решение. Пусть модель регрессии выражается линейным уравнением Используя обычный МИК, получим

Проверим модель на наличие гетероскедастичности, применяя рассмотренные выше методы.

1. Графический анализ остатков.

В табл. 5.2 приведены значения остатков, полученные по уравнению регрессии.

Таблица 5.2

Значения остатков

График остатков е, = г/ ; -y t позволяет предполагать наличие гетероскедастичности (рис. 5.3).


Рис. 53.

2. Проверка гетероскедастичности по тесту Спирмена.

Для этого расположим все наблюдения в порядке возрастания объясняющей переменной.г, рассчитав y t . найдем остатки е, модуль остатков |е, |, в порядке возрастания ранги Xj и е : | и квадрат разности между этими рангами Df. Результаты представлены в табл. 5.3.

Таблица 53

Расчеты для теста Спирмена

Ранг Xj

Ранг | С; |

Ранг Xj

Ранг е {

Находим коэффициент ранговой корреляции Спирмена:

Проверяем значимость полученного коэффициента по?-тесту:

Т ак как? кр = v = ?(0,05; 16) = 2,12, гипотеза Я 0 отклоняется, следовательно, имеет место гетероскедасти ч ность.

3. Проверка гетерос кедасти чности по тесту Глейзера.

Гетероскедастичность случайного отклонения аппроксимируется уравнением (5.1) для у = 1: S; = а + bxj.

Остатки для уравнения регрессии = 13,53 + 2,86х, представлены в табл. 5.2. Применяя обычный МНК к.г, и e t | (столбцы 2 и 3 табл. 5.3), находим коэффициенты а и b :

здесь Sj = е

Значимость коэффициента b :

Гипотеза Я 0 отклоняется, b значимо отличается от нуля. В модели имеет место гетероскедастичность (определение S b рассмотрено в параграфе 3.5).

4. Проверка гетероскедастичности по тесту Голдфелда - Квандта. Упорядоченная по х выборка (см. табл. 5.1) разбивается на три группы 6 - 6 -

б наблюдений. Для первой и третьей групп по МНК строятся уравнения регрессии:

и находится отношение квадратов остатков

Критическое значение F Kp = F 005 . 4 . 4 = 6,39. Так как наблюдаемое значение больше критического, нулевая гипотеза # 0 отклоняется. Гетероскедастичность в выборке, представленной в табл. 5.1, есть.

Вывод. Все тесты показали наличие гетероскедастичности остатков, т.е. невыполнение одной из предпосылок МНК.

Замечание 5.1. Если хотя бы один из примененных тестов показал наличие гетероскедастичности, а остальные - нет, то гипотеза об отсутствии гетероскедастичности отклоняется.

Одним из условий Гаусса-Маркова является предположение о постоянстве дисперсии случайного члена :
для любого

Невыполнимость этого предположения называется гетероскедастичностью (непостоянством, неоднородностью дисперсии отклонений)

Обнаружение гетероскедастичности

В ряде случаев на базе знаний характера данных появление проблемы гетероскедастичности можно предвидеть и попытаться устранить этот недостаток еще на этапе спецификации.Однако значительно чаще эту проблему приходится решать после построения уравнения регрессии.

Обнаружение гетероскедастичности в каждом конкретном случае является довольно сложной задачей,т.к.для знания дисперсий отклонений σ 2 ()необходимо знать распределение случайной величины (СВ) Y,соответствующее выбранному значению СВ Х. В выборкедля каждого конкретного значения определяется единственное значение,что не позволяет оценить дисперсию СВYдля данного.

Не существует какого-либо однозначного метода определения гетероскедастичности.Однако к настоящему времени для выявлениягетероскедастичности разработано довольно большое число тестов и критериев:графический анализ отклонений,тест Голдфелда−Квандта (Goldfeld,Quandt, 1956),тест ранговой корреляции Спирмена,тест Парка,тест Глейзера и т.д. Рассмотрим некоторые из этих методов.

Графический анализ остатков

Использование графического представления отклонений позволяет сделать предположение о наличии или отсутствии гетероскедастичности. В этом случае по оси абсцисс откладывается объясняющая переменная Х (либо линейная комбинация объясняющих переменных,а по оси ординат либо отклонения ,либо их квадраты

Примеры таких графиков приведены на рис.4

На рис..4.а все отклонения находятся внутри полуполосы постоянной ширины, параллельной оси абсцисс. Это говорит о независимости дисперсий от значений переменной Х и их постоянстве, т.е. в этом случае мы находимся в условиях гомоскедастичности.

На рис.4.б г наблюдаются некие систематические изменения в соотношениях между значениями x i переменной Х и квадратами отклонений . На рис. 8.4,в отражена линейная; 8.4,г − квадратичная; 8.4,д − гиперболическая зависимости между квадратами отклонений и значениями объясняющей переменной Х. Другими словами, ситуации, представленные на рис. 8.4,б д , отражают большую вероятность наличия гетероскедастичности для рассматриваемых статистических данных.

Отметим, что графический анализ отклонений является удобным и достаточно надежным в случае парной регрессии. При множественной регрессии графический анализ возможен для каждой из объясняющих переменных Х j , j = 1, 2, …,kотдельно. Чаще же вместо объясняющих переменных Х j по оси абсцисс откладывают значения, получаемые из эмпирического уравнения регрессии. Поскольку расчетное значение зависимой переменнойявляется линейной комбинацией факторных переменных, j = 1, 2,k, то график, отражающий зависимостьот, может указать на наличие гетероскедастичности аналогично ситуациям на рис. 8.4,б д . Такой анализ наиболее целесообразен при большом количестве объясняющих переменных.

Тест ранговой корреляции Спирмена

При использовании данного теста предполагается,что дисперсия отклонения будет либо увеличиваться,либо уменьшаться с увеличением значения Х.Поэтому для регрессии,построенной по МНК,абсолютные величины отклонений и значения СВ Х будут коррелированы.Значения и ранжируются(упорядочиваются по значению).Затем определяется коэффициент ранговой корреляции:
(1)

где−разность между рангами и,
, где n −число наблюдений

Например,если
является15-м по величине среди всех наблюдений Х;а
−является30-м,то= 15 − 30= −15.

Доказано,что если коэффициент корреляции для генеральной совокупности равен нулю,то статистика

(2)

имеет распределение Стьюдента с числом степеней свободы ν= n − 2.

Следовательно,если наблюдаемое значениеt-статистики,вычисленное по формуле(2),превышаетt кр. (α,n−2) (определяемое по таблице критических точек распределения Стьюдента),то необходимо отклонить гипотезу о равенстве нулю коэффициента корреляции ,а следовательно,и об отсутствии гетероскедастичности.В противном случае гипотеза об отсутствии гетероскедастичности принимается.

Если в модели регрессии больше чем одна объясняющая переменная,то проверка гипотезы может осуществляться с помощьюt-статистики для каждой из них отдельно.

Тест Голдфелда−Квандта

Данный тест является наиболее популярным. При проведении проверки по этому критерию предполагается, что случайный член распределен нормально и неподвержен автокорреляции. Этот тест применяется, когда есть предположение о том, что среднее квадратическое отклонение возмущений
(i =1, 2, …, n ) возрастает пропорционально значению некоторого фактора возрастает пропорционально значению фактора. Проверка проводится для всех факторов, включенных в модель, либо только для факторов, предположительно влияющих на однородность исследуемой совокупности. Проверка по некоторому фактору X j выполняется в следующей последовательности:

С помощью данного теста проверяется основная гипотеза :

H 0:гетероскедастичность отсутствует .

H 1: (альтернативная гипотеза)– дисперсии ошибок прямо пропорциональны значениям выбранной переменной .

Для проведения теста необходимо выполнить следующие действия:

Замечание. Если верна основная гипотеза, то статистика
имеет распределение Фишера сстепенями свободы.


если
, то нет оснований отвергнуть основную гипотезу;

если
, то основная гипотеза отклоняется в пользу альтернативной, т.е. существует прямо пропорциональная зависимость между дисперсиями ошибок и значениями выбранной переменной.

Тест Уайта

Тест ранговой корреляции Спирмена и тест Голдфедда-Квандта позволяют обнаружить лишь само наличие гетероскедастичности, но они не дают возможности проследить количественный характер зависимости дисперсий ошибок регрессии от значений регрессоров и, следовательно, не представляют каких-либо способов устранения гетероскедастичности.

Очевидно, для продвижения к этой цели необходимы некоторые дополнительные предположения относительно характера гетероскедастичности. В самом деле, без подобных предположений, очевидно, невозможно было бы оценить п параметров (п дисперсий ошибок регрессии ) с помощью п наблюдений.

Наиболее простой и часто употребляемый тест на гетероскедастичность - тест Уайта. При использовании этого теста предполагается, что дисперсии ошибок регрессии представляют собой одну и ту же функцию от наблюдаемых значений регрессоров, т.е.

=
(3)

Чаще всего функция
выбирается квадратичной, что соответствует тому, что средняя квадратическая ошибка регрессии зависит от наблюдаемых значений факторных переменных приближенно линейно. Гомоскедастичной выборке соответствует случай
= const.

Идея теста Уайта заключается в оценке функции (3) с помощью соответствующего уравнения регрессии для квадратов остатков:


(4)

где - случайный член.

Гипотеза об отсутствии гетероскедастичности (условие
= const) принимается в случае незначимости регрессии (4) в целом.

В большинстве современных пакетов, регрессию (4) не приходится осуществлять вручную - тест Уайта входит в пакет как стандартная подпрограмма. В этом случае функция
выбирается квадратичной, факторные переменные в (4) - это переменные рассматриваемой модели.

Недостатком метода является то, что факт невыявление гетероскедастичности еще не означает ее отсутствия.

    Обоснования введения в модель ведущих факторов. Понятие мультиколлинеарности.

Если в модель включаются два или более тесно взаимосвязанных фактора, то наряду с уравнением регрессии появляется и другая линейная зависимость. Подобное явление называемое мультиколлинеарностью, искажает величину коэффициентов регрессии, затрудняет их экономическую интерпретацию.

Мультиколлинеарность – это тесная зависимость между факторными признаками, включенными в модель.

Мультиколлинеарность:

Искажает величины параметров модели, которые имеют тенденцию к завышению;

Приводит к изменению смысла экономической интерпретации коэффициентов регрессии;

Вызывает слабую обусловленность системы нормальных уравнений.

Осложняет процесс определения наиболее существенных факторных признаков.

Решение проблемы мультиколлинеарности:

Установление наличия мультиколлинеарности;

Определение причин возникновения мультиколлинеарности.

Разработка мер по устранению мультиколлинеарности.

Причины возникновения мультиколлинеарности между признаками:

Изучаемые факторные признаки характеризуют одну и ту же сторону явления или процесса (например, показатели объёма произведённой продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется, так как оба характеризуют размер предприятия)

Использование в качестве факторных признаков, суммарное значение которых представляет собой постоянную величину (например, коэффициент годности и коэффициент износа основных фондов)

Факторные признаки, являющиеся элементами друг друга (например, затраты на производство продукции и себестоимости единицы продукции)

Факторные признаки, по экономическому смыслу дублирующие друг друга (например, прибыль и рентабельность продукции).

Способы определения наличия или отсутствия мультиколлинеарности:

Анализ матрицы коэффициентов парной корреляции – факторы могут быть признаны коллинеарными, если >0,8.

Исследование матрицы Х’X– если определитель матрицы Х’Xблизок к нулю, то это свидетельствует о наличии мультиколлинеарности.

Устранение мультиколлинеарности возможно посредством исключения из корреляционной модели одного или нескольких линейно связанных факторных признаков или преобразование исходных факторных признаков в новые, укрупнённые факторы. Опрос о том, какой из факторов следует отбросить, решается на основе качественного и логического анализа изучаемого явления.

Методы устранения или уменьшения мультиколлинеарности:

Сравнение значений линейных коэффициентов корреляции: при отборе факторов предпочтение отдаётся тому фактору, который более тесно, чем другие факторы, связан с результативным признаком, причём желательно, чтобы связь данного факторного признака с у была выше, чем его связь с другим факторным признаком, т.е. и .

Метод включения факторов: метод заключается в том, что в модель включаются факторы по одному в определённой последовательности. На первом шаге в модель вводится тот фактор, который имеет наибольший коэффициент корреляции с зависимой переменной. На втором и последующих шагах в модель включается фактор, который имеет наибольший коэффициент корреляции с остатками модели. После включения каждого фактора в модель, рассматриваются её характеристики, и модель проверяется на достоверность. Построение модели заканчивается, если модель перестаёт удовлетворять определённым условиям (например, k гдеn - число наблюдений;k число факторных признаков, включаемых в модель;l среднеквадратическая ошибка модели, полученная на предыдущем шаге и включающая (k -1) переменных)

Метод исключения факторов: метод состоит в том, что в модель включаются все факторы. Затем после построения уравнения регрессии из модели исключают фактор, коэффициент при котором незначим и имеет наименьшее значение t-критерия. После этого получают новое уравнение регрессии и снова проводят оценку значимости всех оставшихся коэффициентов регрессии. Процесс исключения факторов продолжается до тех пор, пока модель не начнёт удовлетворять определённым условиям и все коэффициенты регрессии не будут значимы.

    Оценка влияния отдельных факторов на результативный показатель по коэффициентам: детерминация, эластичность.

    Понятие об эконометрических моделях. Отличие эконометрических моделей от математических моделей. Спецификация и идентификация моделей.

    Однофакторная линейная модель регрессии. Определение параметров модели по МНК.

Уравнение линейной парной регрессии:

yx= где , – параметры модели; – случайная величина (величина остатка).

– свободный коэффициент (член) регрессионного уравнения. Не имеет экономического смысла и показывает значение результативного признака у, если факторный признак х=0.

Коэффициент регрессии показывает, на какую величину в среднем изменится результативный признак у, если переменную х увеличить на единицу измерения. Знак при коэффициенте регрессии показывает направление связи: при >0 – связь прямая; при <0 – связь обратная.

– независимая, нормально распределённая случайная величина, остаток с нулевым математическим ожиданием ( =0) и постоянной дисперсией (). Отражает тот факт, что изменение у будет неточно описываться изменением х, так как присутствуют другие факторы, не учтённые в данной модели.

Оценка параметров модели и осуществляется методом наименьших квадратов. Сущность метода наименьших квадратов заключается в том, что отыскиваются такие значения параметров модели ( и ), пери которых сумма квадратов отклонений фактических значений результативного признакаyi от вычисленных по уравнению регрессии будет наименьшей из всех возможных.