Оцените качество построенной модели. Улучшилось ли качество модели по сравнению с однофакторной моделью? Дайте оценку влияния значимых факторов на результат с помощью коэффициентов эластичности, - и -коэффициентов.
Коэффициент детерминации R -квадрат возьмем из итогов «Регрессии» (таблица «Регрессионная статистика» для модели (6)).
Следовательно, вариация (изменение) цены квартиры Y на 76,77% объясняется по данному уравнению вариацией города области Х 1 , числа комнат в квартире Х 2 и жилой площади Х 4 .
Используем исходные данные Y
i
и найденные инструментом «Регрессия» остатки (таблица «Вывод остатка» для модели (6)). Рассчитаем относительные погрешности и найдем среднее значение
.
ВЫВОД ОСТАТКА
Наблюдение | Предсказанное Y | Остатки | Отн. погрешность |
1 | 45,95089273 | -7,95089273 | 20,92340192 |
2 | 86,10296493 | -23,90296493 | 38,42920407 |
3 | 94,84442678 | 30,15557322 | 24,12445858 |
4 | 84,17648426 | -23,07648426 | 37,76838667 |
5 | 40,2537216 | 26,7462784 | 39,91981851 |
6 | 68,70572376 | 24,29427624 | 26,12287768 |
7 | 143,7464899 | -25,7464899 | 21,81905923 |
8 | 106,0907598 | 25,90924022 | 19,62821228 |
9 | 135,357993 | -42,85799303 | 46,33296544 |
10 | 114,4792566 | -9,47925665 | 9,027863476 |
11 | 41,48765602 | 0,512343975 | 1,219866607 |
12 | 103,2329236 | 21,76707636 | 17,41366109 |
13 | 130,3567798 | 39,64322022 | 23,3195413 |
14 | 35,41901876 | 2,580981242 | 6,7920559 |
15 | 155,4129693 | -24,91296925 | 19,0903979 |
16 | 84,32108188 | 0,678918123 | 0,798727204 |
17 | 98,0552279 | -0,055227902 | 0,056355002 |
18 | 144,2104618 | -16,21046182 | 12,66442329 |
19 | 122,8677535 | -37,86775351 | 44,55029825 |
20 | 100,0221225 | 59,97787748 | 37,48617343 |
21 | 53,27196558 | 6,728034423 | 11,21339071 |
22 | 35,06605378 | 5,933946225 | 14,47303957 |
23 | 114,4792566 | -24,47925665 | 27,19917406 |
24 | 113,1343153 | -30,13431529 | 36,30640396 |
25 | 40,43190991 | 4,568090093 | 10,15131132 |
26 | 39,34427892 | -0,344278918 | 0,882766457 |
27 | 144,4794501 | -57,57945009 | 66,25943623 |
28 | 56,4827667 | -16,4827667 | 41,20691675 |
29 | 95,38240332 | -15,38240332 | 19,22800415 |
30 | 228,6988826 | -1,698882564 | 0,748406416 |
31 | 222,8067278 | 12,19327221 | 5,188626473 |
32 | 38,81483144 | 1,185168555 | 2,962921389 |
33 | 48,36325811 | 18,63674189 | 27,81603267 |
34 | 126,6080021 | -3,608002113 | 2,933335051 |
35 | 84,85052935 | 15,14947065 | 15,14947065 |
36 | 116,7991162 | -11,79911625 | 11,23725357 |
37 | 84,17648426 | -13,87648426 | 19,73895342 |
38 | 113,9412801 | -31,94128011 | 38,95278062 |
39 | 215,494184 | 64,50581599 | 23,03779142 |
40 | 141,7795953 | 58,22040472 | 29,11020236 |
Среднее | 101,2375 | 22,51770962 |
По столбцу относительных погрешностей найдем среднее значение =22.51% (с помощью функции СРЗНАЧ).
Сравнение показывает, что 22.51%>7%. Следовательно, точность модели неудовлетворительная.
С помощью F – критерия Фишера проверим значимость модели в целом. Для этого выпишем из итогов применения инструмента «Регрессия» (таблица «дисперсионный анализ» для модели (6)) F = 39,6702.
С помощью функции FРАСПОБР найдем значение F кр =3.252 для уровня значимости α = 5% , и чисел степеней свободы k 1 = 2 , k 2 = 37 .
F > F кр , следовательно, уравнение модели (6) является значимым, его использование целесообразно, зависимая переменная Y достаточно хорошо описывается включенными в модель (6) факторными переменными Х 1 , Х 2 . и Х 4 .
Дополнительно с помощью t –критерия Стьюдента проверим значимость отдельных коэффициентов модели.
t
–статистики для коэффициентов уравнения регрессии приведены в итогах инструмента «Регрессия». Получены следующие значения для выбранной модели (6) :
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 95,0% | Верхние 95,0% |
|
Y-пересечение | -5,643572321 | 12,07285417 | -0,46745966 | 0,642988 | -30,1285 | 18,84131 | -30,1285 | 18,84131 |
X4 | 2,591405557 | 0,461440597 | 5,61590284 | 2,27E-06 | 1,655561 | 3,52725 | 1,655561 | 3,52725 |
X1 | 6,85963077 | 9,185748512 | 0,74676884 | 0,460053 | -11,7699 | 25,48919 | -11,7699 | 25,48919 |
X2 | -1,985156991 | 7,795346067 | -0,25465925 | 0,800435 | -17,7949 | 13,82454 | -17,7949 | 13,82454 |
Критическое значение t кр найдено для уровня значимости α=5% и числа степеней свободы k =40–2–1=37 . t кр =2.026 (функция СТЬЮДРАСПОБР).
Для свободного коэффициента α
=–5.643
определена статистика
, t
кр
, следовательно, свободный коэффициент не является значимым, его можно исключить из модели.
Для коэффициента регрессии β
1
=6.859
определена статистика
, β
1
не является значимым, его и фактор города области можно удалить из модели.
Для коэффициента регрессии β
2
=-1,985
определена статистика
, t
кр
, следовательно, коэффициент регрессии β
2
не является значимым, его и фактор числа комнат в квартире можно исключить из модели.
Для коэффициента регрессии β
4
=2.591
определена статистика
, >t кр, следовательно, коэффициент регрессии β
4
является значимым, его и фактор жилой площади квартиры можно сохранить в модели.
Выводы о значимости коэффициентов модели сделаны на уровне значимости α=5% . Рассматривая столбец «P-значение», отметим, что свободный коэффициент α можно считать значимым на уровне 0.64 = 64%; коэффициент регрессии β 1 – на уровне 0,46 = 46%; коэффициент регрессии β 2 – на уровне 0,8 = 80%; а коэффициент регрессии β 4 – на уровне 2,27E-06= 2,26691790951854E-06 = 0,0000002%.
При добавлении в уравнение новых факторных переменных автоматически увеличивается коэффициент детерминации R
2
и уменьшается средняя ошибка аппроксимации, хотя при этом не всегда улучшается качество модели. Поэтому для сравнения качества модели (3) и выбранной множественной модели (6) используем нормированные коэффициенты детерминации.
Таким образом, при добавлении в уравнение регрессии фактора «город области» Х 1 и фактора «число комнат в квартире» Х 2 качество модели ухудшилось, что говорит в пользу удаления факторов Х 1 и Х 2 из модели.
Проведем дальнейшие расчеты.
Средние коэффициенты эластичности
в случае линейной модели определяются формулами
.
С помощью функции СРЗНАЧ найдем: S Y , при увеличении только фактора Х 4 на одно его стандартное отклонение – увеличивается на 0,914 S Y
Дельта-коэффициенты
определяются формулами
.
Найдем коэффициенты парной корреляции с использованием инструмента «Корреляция» пакета «Анализ данных» в Excel.
Y | X1 | X2 | X4 |
|
Y | 1 | |||
X1 | -0,01126 | 1 | ||
X2 | 0,751061 | -0,0341 | 1 | |
X4 | 0,874012 | -0,0798 | 0,868524 | 1 |
Коэффициент детерминации был определен ранее и равен 0.7677.
Вычислим дельта-коэффициенты:
;
Поскольку Δ 1 1
и Х
2
выбрана неудачно, и их нужно удалить из модели. Значит, по уравнению полученной линейной трехфакторной модели изменение результирующего фактора Y
(цены квартиры) на 104% объясняется воздействием фактора Х
4
(жилой площадью квартиры), на 4% воздействием фактора Х
2
(число комнат), на 0,0859% воздействием фактора Х
1
(город области).
При изучении сложных явлений необходимо учитывать более двух случайных факторов. Правильное представление о природе связи между этими факторами можно получить только в том случае, если подвергнуть исследованию сразу все рассматриваемые случайные факторы. Совместное изучение трех и более случайных факторов позволит исследователю установить более или менее обоснованные предположения о причинных зависимостях между изучаемыми явлениями. Простой формой множественной связи является линейная зависимость между тремя признаками. Случайные факторы обозначаются как X 1 , X 2 и X 3 . Парный коэффициенты корреляции между X 1 и X 2 обозначается как r 12 , соответственно между X 1 и X 3 - r 12 , между X 2 и X 3 - r 23 . В качестве меры тесноты линейной связи трех признаков используют множественные коэф-фициенты корреляции, обозначаемые R 1 ּ 23 , R 2 ּ 13 , R 3 ּ 12 и частные коэффициенты корреляции, обозначаемые r 12.3 , r 13.2 , r 23.1 .
Множественный коэффициент корреляции R 1.23 трех факторов - это показатель тесноты линейной связи между одним из факторов (индекс перед точкой) и совокупностью двух других факторов (индексы после точки).
Значения коэффициента R всегда находятся в пределах от 0 до 1. При приближении R к единице степень линейной связи трех признаков увеличивается.
Между коэффициентом множественной корреляции, например R 2 ּ 13 , и двумя коэффициентами парной корреляции r 12 и r 23 существует соотношение: каждый из парных коэффициентов не может превышать по абсолютной величине R 2 ּ 13 .
Формулы для вычисления множественных коэффициентов корреляции при известных значениях коэффициентов парной корреляции r 12 , r 13 и r 23 имеют вид:
Квадрат коэффициента множественной корреляции R 2 называется коэффициентом множественной детерминации. Он показывает долю вариации зависимой переменной под воздействием изучаемых факторов.
Значимость множественной корреляции оценивается по F -критерию:
n – объем выборки; k – число факторов. В нашем случае k = 3.
нулевая гипотеза о равенстве множественного коэффициента корреляции в совокупности нулю (h o
:r
=0)принимается, если f
ф <f t
, и отвергается, если
f
ф ³ f
т.
теоретическое значение f -критерия определяется для v 1 = k - 1 и v 2 = n - k степеней свободы и принятого уровня значимости a (приложение 1).
Пример вычисления коэффициента множественной корреляции . При изучении взаимосвязи между факторами были получены коэффициенты парной корреляции (n =15): r 12 ==0,6; г 13 = 0,3; r 23 = - 0,2.
Необходимо выяснить зависимость признака X 2 от признака X 1 и X 3 , т. е. рассчитать коэффициент множественной корреляции:
Табличное значение F -критерия при n 1 = 2 и n 2 = 15 – 3 = 12 степенях свободы при a = 0,05 F 0,05 = 3,89 и при a = 0,01 F 0,01 = 6,93.
Таким образом, взаимосвязь между признаками R
2.13 = 0,74 значима на
1%-ном уровне значимости F
ф > F
0,01 .
Судя по коэффициенту множественной детерминации R 2 = (0,74) 2 = 0,55, вариация признака X 2 на 55% связана с действием изучаемых факторов, а 45% вариации (1-R 2) не может быть объяснено влиянием этих переменных.
Частная линейная корреляция
Частный коэффициент корреляции - это показатель, измеряющий степень сопряженности двух признаков.
Математическая статистика позволяет установить корреляцию между двумя признаками при постоянном значении третьего, не ставя специального эксперимента, а используя парные коэффициенты корреляции r 12 , r 13 , r 23 .
Частные коэффициенты корреляции рассчитывают по формулам:
Цифры перед точкой указывают, между какими признаками изучается зависимость, а цифра после точки - влияние какого признака исключается (элиминируется). Ошибку и критерий значимости частной корреляции определяют по тем же формулам, что и парной корреляции:
.
Теоретическое значение t- критерия определяется для v = n – 2 степеней свободы и принятого уровня значимости a (приложение 1).
Нулевая гипотеза о равенстве частного коэффициента корреляции в совокупности нулю (H o
: r
= 0)принимается, если t
ф < t
т, и отвергается, если
t
ф ³ t
т.
Частные коэффициенты могут принимать значения, заключенные между -1 и+1. Частные коэффициенты детерминации находят путем возведения в квадрат частных коэффициентов корреляции:
D 12.3 = r 2 12ּ3 ; d 13.2 = r 2 13ּ2 ; d 23ּ1 = r 2 23ּ1 .
Определение степени частного воздействия отдельных факторов на результативный признак при исключении (элиминировании) связи его с другими признаками, искажающими эту корреляцию, часто представляет большой интерес. Иногда бывает, что при постоянном значении элиминируемого признака нельзя подметить его статистического влияния на изменчивость других признаков. Чтобы уяснить технику расчета частного коэффициента корреляции, рассмотрим пример. Имеются три параметра X , Y и Z . Для объема выборки n = 180 определены парные коэффициенты корреляции
r xy = 0,799; r xz = 0,57; r yz = 0,507.
Определим частные коэффициенты корреляции:
Частный коэффициент корреляции между параметром X и Y Z (r хуּz = 0,720) показывает, что лишь незначительная часть взаимосвязи этих признаков в общей корреляции (r xy = 0,799) обусловлена влиянием третьего признака (Z ). Аналогичное заключение необходимо сделать и в отношении частного коэффициента корреляции между параметром X и параметром Z с постоянным значением параметраY (r х z ּу = 0,318 и r xz = 0,57). Напротив, частный коэффициент корреляции между параметрами Y и Z с постоянным значением параметра X r yz ּx = 0,105 значительно отличается от общего коэффициента корреляции r у z = 0,507. Из этого видно, что если подобрать объекты с одинаковым значением параметра X , то связь между признаками Y и Z у них будет очень слабой, так как значительная часть в этой взаимосвязи обусловлена варьированием параметра X .
При некоторых обстоятельствах частный коэффициент корреляции может оказаться противоположным по знаку парному.
Например, при изучении взаимосвязи между признаками X, У
и Z
- были получены парные коэффициенты корреляции (при n
= 100): r
ху = 0,6; r
х z
= 0,9;
r у z
= 0,4.
Частные коэффициенты корреляции при исключении влияния третьего признака:
Из примера видно, что значения парного коэффициента и частного коэффициента корреляции разнятся в знаке.
Метод частной корреляции дает возможность вычислить частный коэффициент корреляции второго порядка. Этот коэффициент указывает на взаимосвязь между первым и вторым признаком при постоянном значении третьего и четвертого. Определение частного коэффициента второго порядка ведут на основе частных коэффициентов первого порядка по формуле:
где r 12 . 4 , r 13 ּ4 , r 23 ּ4 - частные коэффициенты, значение которых определяют по формуле частного коэффициента, используя коэффициенты парной корреляции r 12 , r 13 , r 14 , r 23 , r 24 , r 34 .
Попробуем для начала найти ответ на каждый из обозначенных нами вопросов в ситуации, когда наша каузальная модель содержит всего две независимые переменные.
Множественная корреляция R и коэффициент детерминация R2
Для оценки совокупной связи всех независимых переменных с зависимой переменной используется множественный коэффициент корреляции R. Отличие коэффициента множественной корреляции R от бивариативного коэффициента корреляции г заключается в том, что он может быть лишь положительным. Для двух независимых переменных он может быть оценен следующим образом:
Коэффициент множественной корреляции может быть определен и в результате оценки частных коэффициентов регрессии, составляющих уравнение (9.1). Для двух переменных это уравнение, очевидно, примет следующий вид:
(9.2)
Если наши независимые переменные будут трансформированы в единицы стандартного нормального распределения, или Z-распределения, уравнение (9.2), очевидно, примет следующий вид:
(9.3)
В уравнении (9.3) коэффициент β обозначает стандартизированное значение коэффициента регрессии В.
Сами стандартизированные коэффициенты регрессии могут быть вычислены по следующим формулам:
Теперь формула для вычисления коэффициента множественной корреляции будет выглядеть так:
Еще одним способом оценки коэффициента корреляции R является вычисление бивариативного коэффициента корреляции r между значениями зависимой переменной У и соответствующими им значениями , вычисленными на основании уравнения линейной регрессии (9.2). Иными словами, величина R может быть оценена следующим образом:
Наряду с этим коэффициентом мы можем оценить, как и в случае простой регрессии, величину R 2, которую принято еще обозначать как коэффициент детерминации. Так же как и в ситуации оценки связи между двумя переменными, коэффициент детерминации R 2 показывает, какой процент дисперсии зависимой переменной Y , т.е. , оказывается связанным с дисперсией всех независимых переменных – . Иными словами, оценка коэффициента детерминации может быть осуществлена следующем образом:
Также мы можем оценить процент остаточной дисперсии зависимой переменной, нс связанный ни с одной из независимых переменных 1 – R 2. Квадратный корень от этой величины, т.е. величина , так же, как и в случае бивариативной корреляции, называют коэффициентом отчуждения.
Корреляция части
Коэффициент детерминация R 2 демонстрирует, какой процент дисперсии зависимой переменной может быть связан с дисперсией всех независимых переменных, включенных в каузальную модель. Чем больше этот коэффициент, тем более значимой является выдвинутая нами каузальная модель. Если этот коэффициент оказывается не слишком большим, то и вклад исследуемых нами переменных в общую дисперсию зависимой переменной также оказывается незначительным. На практике, однако, часто требуется не только оценить совокупный вклад всех переменных, но и отдельный вклад каждой из рассматриваемых нами независимых переменных. Такой вклад может быть определен как корреляция части.
Как мы знаем, в случае бивариативной корреляции процент дисперсии зависимой переменной, связанный с дисперсией независимой переменной, может быть обозначен как r 2. Однако часть этой дисперсии в случае исследования эффектов нескольких независимых переменных оказывается обусловлена одновременно дисперсией независимой переменной, которую мы используем в качестве контрольной. Наглядно эти соотношения показаны на рис. 9.1.
Рис. 9.1. Соотношение дисперсий зависимой (Y ) и двух независимых (X 1 и Х 2) переменных в корреляционном анализе с двумя независимыми переменными
Как показано на рис. 9.1, вся дисперсия Y , связанная с двумя нашими независимыми переменными, состоит из трех частей, обозначенными а, b и с. Части а и b дисперсии Y принадлежат по отдельности дисперсии двух независимых переменных – Х 1 и Х 2. В то же время дисперсия части с одновременно связывает и дисперсию зависимой переменной У, и дисперсию двух наших переменных X. Следовательно, для того чтобы оценить связь переменной X 1 с переменной Y, которая не обусловлена влиянием переменной Х 2 на переменную Y , необходимо из величины R" 2 вычесть величину квадрата корреляции Y с Х 2:
(9.6)
Аналогичным образом можно оценить часть корреляции У с Х 2, которая не обусловлена ее корреляцией с Х 1.
(9.7)
Величина sr в уравнениях (9.6) и (9.7) и есть искомая нами корреляция части.
Определить корреляцию части можно также и в терминах обычной бивариативной корреляции:
По-другому корреляция части называется полупарциальной корреляцией. Это название означает, что при расчете корреляции эффект второй независимой переменной устраняется применительно к значениям первой независимой переменной, но нс устраняется по отношению к зависимой переменной. Эффект Х 1 как бы корректируется с помощью значений Х 2, так что коэффициент корреляции рассчитывается не между Y и X 1 а между Y и , причем значения рассчитываются на основе значений Х 2 так, как было рассмотрено в главе, посвященной простой линейной регрессии (см. подпараграф 7.4.2). Таким образом, оказывается справедливым следующее соотношение:
Для того чтобы оценить корреляцию одной независимой переменной с зависимой переменной в отсутствие влияния других независимых переменных как на саму независимую переменную, так и на зависимую переменную, в регрессионном анализе используется понятие частной корреляции.
Частные корреляции
Частная, или парциальная, корреляция определяется в математической статистике через пропорцию дисперсии зависимой переменной, связанной с дисперсией данной независимой переменной, по отношению ко всей дисперсии этой зависимой переменной, не считая той ее части, которая связана с дисперсией других независимых переменных. Формально для случая двух независимых переменных это можно выразить следующим образом:
Сами значения частной корреляции рr могут быть найдены на основе значений бивариативной корреляции:
Частная корреляция, таким образом, может быть определена как обычная бивариативная корреляция между скорректированными значениями как зависимой, так и независимой переменной. Непосредственно коррекция осуществляется в соответствии со значениями независимой переменной, выступающей в качестве контрольной. Иными словами, частная корреляция между зависимой переменной Y и независимой переменной X i может быть определена как обычная корреляция между значениями и значениями , причем значения и предсказываются на основе значений второй независимой переменной Х 2.
Множественный коэффициент корреляции используется в качестве меры степени тесноты статистической связи между результирующим показателем (зависимой переменной) y и набором объясняющих (независимых) переменных или, иначе говоря, оценивает тесноту совместного влияния факторов на результат.
Множественный коэффициент корреляции может быть вычислен по ряду формул 5 , в том числе:
с использованием матрицы парных коэффициентов корреляции
, (3.18)
где
r
- определитель матрицы парных коэффициентов
корреляции y
,
,
r
11
- определитель матрицы межфакторной
корреляции
;
. (3.19)
Для модели, в которой присутствуют две независимые переменные, формула (3.18) упрощается
. (3.20)
Квадрат множественного коэффициента корреляции равен коэффициенту детерминации R 2 . Как и в случае парной регрессии, R 2 свидетельствует о качестве регрессионной модели и отражает долю общей вариации результирующего признака y , объясненную изменением функции регрессии f (x ) (см. 2.4). Кроме того, коэффициент детерминации может быть найден по формуле
. (3.21)
Однако использование R 2 в случае множественной регрессии является не вполне корректным, так как коэффициент детерминации возрастает при добавлении регрессоров в модель. Это происходит потому, что остаточная дисперсия уменьшается при введении дополнительных переменных. И если число факторов приблизится к числу наблюдений, то остаточная дисперсия будет равна нулю, и коэффициент множественной корреляции, а значит и коэффициент детерминации, приблизятся к единице, хотя в действительности связь между факторами и результатом и объясняющая способность уравнения регрессии могут быть значительно ниже.
Для того чтобы получить адекватную оценку того, насколько хорошо вариация результирующего признака объясняется вариацией нескольких факторных признаков, применяют скорректированный коэффициент детерминации
(3.22)
Скорректированный
коэффициент детерминации всегда меньше
R
2 .
Кроме того, в отличие от R
2 ,
который всегда положителен,
может принимать и отрицательное значение.
Пример (продолжение примера 1) . Рассчитаем множественный коэффициент корреляции, согласно формуле (3.20):
Величина множественного коэффициента корреляции, равного 0,8601, свидетельствует о сильной взаимосвязи стоимости перевозки с весом груза и расстоянием, на которое он перевозится.
Коэффициент детерминации равен: R 2 =0,7399.
Скорректированный коэффициент детерминации рассчитываем по формуле (3.22):
=0,7092.
Заметим, что величина скорректированного коэффициента детерминации отличается от величины коэффициента детерминации.
Таким образом, 70,9% вариации зависимой переменной (стоимости перевозки) объясняется вариацией независимых переменных (весом груза и расстоянием перевозки). Остальные 29,1% вариации зависимой переменной объясняются факторами, неучтенными в модели.
Величина скорректированного коэффициента детерминации достаточно велика, следовательно, мы смогли учесть в модели наиболее существенные факторы, определяющие стоимость перевозки.
Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной и совокупностью других рассматриваемых переменных.Особое значение имеет расчет множественного коэффициента корреляции результативного признака y с факторными x 1 , x 2 ,…, x m , формула для определения которого в общем случае имеет вид
где ∆ r – определитель корреляционной матрицы; ∆ 11 – алгебраическое дополнение элемента r yy корреляционной матрицы.
Если рассматриваются лишь два факторных признака, то для вычисления множественного коэффициента корреляции можно использовать следующую формулу:
Построение множественного коэффициента корреляции целесообразно только в том случае, когда частные коэффициенты корреляции оказались значимыми, и связь между результативным признаком и факторами, включенными в модель, действительно существует.
Коэффициент детерминации
Общая формула: R 2 = RSS/TSS=1-ESS/TSSгде RSS - объясненная сумма квадратов отклонений, ESS - необъясненная (остаточная) сумма квадратов отклонений, TSS - общая сумма квадратов отклонений (TSS=RSS+ESS)
,
где r ij - парные коэффициенты корреляции между регрессорами x i и x j , a r i 0 - парные коэффициенты корреляции между регрессором x i и y ;
- скорректированный (нормированный) коэффициент детерминации.
Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации
; он показывает, какая доля дисперсии результативного признака y
объясняется влиянием факторных признаков x 1 , x 2 , …,x m . Заметим, что формула для вычисления коэффициента детерминации через соотношение остаточной и общей дисперсии результативного признака даст тот же результат.
Множественный коэффициент корреляции и коэффициент детерминации изменяются в пределах от 0 до 1. Чем ближе к 1, тем связь сильнее и, соответственно, тем точнее уравнение регрессии, построенное в дальнейшем, будет описывать зависимость y
от x 1 , x 2 , …,x m . Если значение множественного коэффициента корреляции невелико (меньше 0,3), это означает, что выбранный набор факторных признаков в недостаточной мере описывает вариацию результативного признака либо связь между факторными и результативной переменными является нелинейной.
Рассчитывается множественный коэффициент корреляции с помощью калькулятора . Значимость множественного коэффициента корреляции и коэффициента детерминации проверяется с помощью критерия Фишера .
Какое из приведенных чисел может быть значением коэффициента множественной детерминации:
а) 0,4 ;
б) -1;
в) -2,7;
г) 2,7.
Множественный линейный коэффициент корреляции равен 0.75 . Какой процент вариации зависимой переменной у учтен в модели и обусловлен влиянием факторов х 1 и х 2 .
а) 56,2 (R 2 =0.75 2 =0.5625);