Все явления в природе и обществе находятся во взаимной связи. Выяснение
наличия связей между изучаемыми явлениями ― одна из важных
задач статистики. Многие медико-биологические и медико-социальные
исследования требуют установления вида связи (зависимости) между
случайными величинами. Сама постановка большого круга задач
в медицинских исследовательских работах предполагает построение
и реализацию алгоритмов «фактор ― отклик», «доза ― эффект».
Зачастую нужно установить наличие эффекта при имеющейся дозе
и оценить количественно полученный эффект в зависимости от дозы. Решение
этой задачи напрямую связано с вопросом прогнозирования определенного
эффекта и дальнейшего изучения механизма возникновения именно такого
Как известно, случайные величины X и Y могут быть либо независимыми,
либо зависимыми. Зависимость случайных величин подразделяется на
функциональную и статистическую (корреляционную).
Функциональная зависимость ― такой вид зависимости, когда каждому
значению одного признака соответствует точное значение другого.
В математике функциональную зависимость переменной X от переменной
Y называют зависимостью вида X= f (Y), где каждому допустимому значению
Y ставится в соответствие по определенному правилу единственно возможное
значение X.
Например: взаимосвязь площади круга (S) и длины окружности (L). Известно,
что площадь круга и длина окружности связаны вполне определенным
отношением S = r L, где r – радиус круга. Умножив длину окружности
на половину ее радиуса, можно точно определить площадь крута. Такую
изменение одного признака изменением другого. Этот вид связи характерен
для объектов, являющихся сферой приложения точных наук.
В медико-биологических исследованиях сталкиваться с функциональной
связью приходится крайне редко, поскольку объекты этих исследований
имеют большую индивидуальную вариабельность (изменчивость). С
другой стороны, характеристики биологических объектов зависят,
как правило, от комплекса большого числа сложных взаимосвязей и не могут
быть сведены к отношению двух или трех факторов. Во многих
медицинских исследованиях требуется выявить зависимость какой-либо
величины, характеризующей результативный признак, от нескольких
факториальных признаков.
Дело в том, что на формирование значений случайных величин X и Y
оказывают влияние различные факторы. Обе величины ― и X, и
Y ― являются случайными, но так как имеются общие факторы, оказывающие
влияние на них, то X и Y обязательно будут взаимосвязаны. И связь эта
уже не будет функциональной, поскольку в медицине и биологии часто
бывают факторы, влияющие лишь на одну из случайных величин и
разрушающие прямую (функциональную) зависимость между значениями
X и Y. Связь носит вероятностный, случайный характер, в численном выражении
меняясь от испытания к испытанию, но эта связь определенно присутствует
и называется корреляционной.
Корреляционной является зависимость массы тела от роста, поскольку
на нее влияют и многие другие факторы (питание, здоровье,
наследственность и т.д.). Каждому значению роста (X) соответствует множество
значений массы (Y), причем, несмотря на общую тенденцию, справедливую
для средних: большему значению роста соответствует и большее
значение массы, ― в отдельных наблюдениях субъект с большим ростом
может иметь и меньшую массу. Корреляционной будет зависимость
заболеваемости от воздействия внешних факторов, например
запыленности, уровня радиации, солнечной активности и т.д. Имеется
корреляционная зависимость между дозой ионизирующего излучения и
числом мутаций, между пигментом волос человека и цветом глаз, между
показателями уровня жизни населения и смертностью, между числом
пропущенных студентами лекций и оценкой на экзамене.
Именно корреляционная зависимость наиболее часто встречается в
природе в силу взаимовлияния и тесного переплетения огромного множества
самых разных факторов, определяющих значение изучаемых показателей.
Корреляционная зависимость ― это зависимость, когда при изменении
одной величины изменяется среднее значение другой.
Строго говоря, термин «зависимость» при статистической обработке
материалов медико-биологических исследований должен использоваться
весьма осторожно. Это связано с природой статистического анализа,
который сам по себе не может вскрыть истинных причинно-следственных
отношений между факторами, нередко опосредованными третьими факторами,
причем эти третьи факторы могут лежать вообще вне поля зрения
исследователя. С помощью статистических критериев можно дать только
формальную оценку взаимосвязей. Попытки механически
перенести данные статистических расчетов в объективную реальность
могут привести к ошибочным выводам. Например, утверждение: «Чем
громче утром кричат воробьи, тем выше встает солнце», несмотря на явную
несуразность, с точки зрения формальной статистики вполне правомерно.
Таким образом, термин «зависимость» в статистическом анализе подразумевает
только оценку соответствующих статистических критериев.
Корреляционные связи называют также статистическими (например,
зависимость уровня заболеваемости от возраста населения). Эти связи
непостоянны, они колеблются от нуля до единицы. Ноль означает отсутствие
зависимости между признаками, а единица ― полную, или функциональную,
связь, когда имеется зависимость только от одного признака.
Мерой измерения статистической зависимости служат раз личные
коэффициенты корреляции. Выбор метода для определения взаимосвязей
обусловлен видом самих признаков и способами их группировки.
Для количественных данных применяют линейную регрессию и
коэффициент линейной корреляции Пирсона. Для качественных признаков
применяются таблицы сопряженности и рассчитываемые на их основе
коэффициенты сопряженности (С и Ф), Чупрова (К). Для при знаков,
сформированных в порядковой (ранговой, балльной) шкале, можно применять
ранговые коэффициенты корреляции Спирмена или Кендэла.
Любую существующую зависимость по направлению связи можно
подразделить на прямую и обратную. Прямая зависимость
― это зависимость, при которой увеличение или уменьшение значения
одного признака ведет, соответственно, к увеличению или уменьшению второго.
Например: при увеличении температуры возрастает давление газа
(при его неизменном объеме), при уменьшении температуры снижается
и давление. Обратная зависимость имеется тогда, когда при увеличении
одного признака второй уменьшается, и наоборот: при уменьшении
одного второй увеличивается. Обратная зависимость, или обратная
связь, является основой нормального регулирования почти
всех процессов жизнедеятельности любого организма.
Оценка силы корреляционной связи проводится в соответствии со шкалой тесноты.
Если размеры коэффициента корреляции от ±0,9(9) до ±0,7, то связь
сильная, коэффициенты корреляции от ±0,31 до ±0,69 отражают связь средней
силы, а коэффициенты от ±0,3 до нуля характеризуют слабую связь.
Известное представление о наличии или отсутствии корреляционной связи
между изучаемыми явлениями или признаками (например, между массой тела и
ростом) можно получить графически, не прибегая к специальным расчетам. Для
этого достаточно на чертеже в системе прямоугольных координат отложить,
например,
на оси абсцисс величины роста, а на оси ординат ― массы тела и нанести ряд точек,
каждая из которых соответствует индивидуальной величине веса при данном
росте обследуемого. Если полученные точки располагаются кучно по наклонной
прямой к осям ординат в виде овала (эллипса) или по кривой линии,
то это свидетельствует о зависимости между явлениями. Если же точки
расположены беспорядочно или на прямой, параллельной абсциссе либо ординате,
то это говорит об отсутствии зависимости.
По форме корреляционные связи подразделяются на прямолинейные, когда
наблюдается пропорциональное изменение одного признака в зависимости от
изменения другого (графически эти связи изображаются в виде прямой линии или
близкой к ней), и криволинейные, когда одна величина признака
При проведении исследования в биологии или медицине, как правило, регистрируются множество учетных признаков. Представляет интерес вопрос об их взаимном изменении, т.е. обнаружение зависимостей между ними. Выявление наличия таких взаимосвязей является одной из важнейших задач любой науки, в том числе и медицины.
Различают две формы количественных связей между явлениями или процессами: функциональную и корреляционную . Под ФУНКЦИОНАЛЬНОЙ понимают такую связь, при которой любому значению одного из признаков соответствует строго определенное значение другого. В точных науках, таких, как физика, химия и другие, может быть установлена функциональная взаимосвязь. Например, зависимость площади круга от длины окружности в геометрии, или в физике длина пути, пройденной телом в свободном падении, от времени. Наиболее известным видом функциональной зависимости является линейная, которая выражается математической формулой: y = ax+b .
В биологии и медицине установить функциональную зависимость, как правило, не удается. Объекты этих исследований имеют большую изменчивость и зависят от огромного числа факторов, измерить которые просто невозможно. В этом случае определяется наличие КОРРЕЛЯЦИОННОЙ связи, при которой значению каждой средней величины одного признака соответствует несколько значений другого взаимосвязанного с ним признака. Например: связь между ростом и массой тела человека. У группы людей с одинаковым ростом наблюдается различная масса тела, однако она варьирует в определенных пределах вокруг средней величины. Поэтому такую зависимость нужно оценивать с использованием понятия случайной величины с привлечением подходов теории вероятности. Такую форму зависимостей называют «Корреляционной».
При поиске зависимости между признаками может быть обнаружена взаимосвязь, различная по направлению и силе:
Прямая (при увеличении одного признака увеличивается второй);
Обратная (при увеличении одного признака второй уменьшается).
Степень взаимосвязи признаков по силе (тесноте) принято обозначать как:
Отсутствие;
Средняя;
Сильная;
Способами выявления корреляционной взаимосвязи между признаками являются:
Визуальные (таблицы и графики).
Статистические (корреляция и регрессия).
Следует подчеркнуть, что обнаружение корреляции между двумя признаками еще не говорит о существовании причинной связи между ними, а лишь указывает на возможность таковой или на наличие фактора, определяющего изменение обеих переменных совместно.
Приёмы визуализации данных позволяют обнаружить корреляционную зависимость лишь при небольшом числе наблюдений и только приблизительно. Для обнаружения корреляционной взаимосвязи с помощью таблицы в ней располагают ранжированные вариационные ряды и затем определяют совместное изменение признаков. График более наглядно демонстрирует такую зависимость и позволяет оценить ее форму: линейная, параболическая, тригонометрическая и др.
Наиболее точным способом обнаружения взаимосвязи между признаками является вычисление коэффициента корреляции . В зависимости от природы обрабатываемых данных применяются параметрические или непараметрические методы вычисления этого коэффициента.
При вычислении коэффициента корреляции исследователь получает возможность судить о силе связи (степени сопряженности) и ее направлении, а также с требуемой долей вероятности делать вывод о проявлении этой связи в генеральной совокупности. Чем больше коэффициент корреляции, тем с большей степенью уверенности можно говорить о наличии корреляционной зависимости между признаками. Если каждому заданному значению одного признака соответствуют близкие друг к другу, тесно расположенные около средней величины значения другого признака, то связь является более тесной. Когда эти значения сильно варьируют, связь менее тесная. Таким образом, мера корреляции указывает, насколько тесно связаны между собой параметры.
Коэффициент корреляции может принимать значения от -1 до +1. Направление обнаруженной взаимосвязи определяют по знаку коэффициента корреляции. При его положительном значении обнаруженная связь является прямой, при отрицательном – обратной. Сила связи оценивается по модулю этого коэффициента. Условно выделяют следующие уровни корреляционной связи: отсутствие – 0; слабая – от 0 до 0,3; средняя – от 0,3 до 0,7; сильная – 0,7 и более; полная – 1. Однако обсуждать наличие корреляции имеет смысл только в тех случаях, когда она статистически значима (p <0,05). Поэтому после вычисления коэффициента корреляции производится определение его ошибки репрезентативности и критерия достоверности.
Наиболее часто применяемыми в настоящее время методами обнаружения корреляции являются параметрический анализ по Пирсону и непараметрический анализ по Спирмену. Этими методами проверяется нулевая гипотеза (H 0 ) об отсутствии связи между параметрами. Если такая гипотеза отклоняется при заданном уровне значимости (p ), можно говорить о наличии взаимосвязи между параметрами.
Корреляционный анализ по Пирсону используется при решении задачи исследования линейной связи двух нормально распределенных параметров. Кроме проверки на нормальность распределения каждого параметра, до проведения корреляционного анализа рекомендуется строить график в координатах оцениваемых параметров, чтобы визуально определить характер зависимости.
Коэффициент корреляции Пирсона (r xy ) или коэффициент линейной корреляции, был разработан в 90-х годах XIX века Карлом Пирсон, Фрэнсисом Эджуортом и Рафаэлем Уэлдоном в Англии. Он рассчитывается по формуле:
где: r xy
cov XY – ковариация признаков X и Y ;
σ X X ;
σ Y – среднее квадратическое отклонение признака Y;
X ;
– средняя арифметическая признака Y .
В медицинской литературе встречается упрощенная запись этой формулы:
где: r xy – коэффициент линейной корреляции Пирсона;
d x x от средней этого признака: d x = x - M x ,
d y – отклонение каждой варианты признака y от средней этого признака: d y = y - M y .
В программе Excel значение коэффициент линейной корреляции Пирсона может быть вычислено функцией = КОРРЕЛ(Диапазон ячеек 1-го ряда; Диапазон ячеек 2-го ряда).
Для прогнозирования уровня корреляции в генеральной совокупности определяют ошибку репрезентативности этого коэффициента m r . Она вычисляется по формуле:
,
где: m r – ошибка репрезентативности коэффициента корреляции;
r xy – коэффициент линейной корреляции Пирсона;
n – число парных вариант.
Достоверность коэффициента линейной корреляции оценивается по коэффициенту Стьюдента (t r ), который вычисляется с использованием его ошибки:
где: t r
r xy – коэффициент линейной корреляции Пирсона;
m r – ошибка репрезентативности коэффициента корреляции.
Если число парных вариант n >30, то при t r >2 связь считается достоверной при уровне значимости p <0,05. Если число парных вариант n <30, то критическое значение t r-Крит. находят по таблице критических значений Стьюдента при степени свободы df = n - 2 . В программе Excel это значение вычисляется функцией = СТЬЮДРАСПОБР(Уровень значимости p ; Степени свободыdf ).
С целью уменьшения объема вычислений может применяться функция =КОРРЕЛ(Диапазон1; Диапазон2) или надстройка «Анализ данных» и ее модуль «Корреляционный анализ».
Отсутствие линейной корреляции еще не означает, что параметры полностью независимы. Связь между ними может быть нелинейной, или признаки, используемые в вычислениях, могут не подчиняться нормальному закону распределения. Поэтому, помимо вычисления коэффициента линейной корреляции, прибегают к использованию непараметрических коэффициентов корреляции. К ним относятся:
Коэффициент ранговой корреляции Спирмена;
Коэффициент ранговой корреляции Кендалла;
Коэффициент корреляции знаков Фехнера;
Коэффициент множественной ранговой корреляции (конкордации).
Корреляционный анализ по Спирмену применяется для обнаружения взаимосвязи двух параметров, если распределение хотя бы одного из них отлично от нормального.
Каждому показателю x и y присваивается ранг. На основе полученных рангов рассчитываются их разности d. Затем вычисляется коэффициент корреляции (ρ ) по формуле:
где: r
d – разность рангов;
n – число парных вариант.
Ошибка репрезентативности коэффициента корреляции Спирмена определяется по формуле:
,
а коэффициент достоверности Стьюдента:
где: t r – коэффициент достоверности Стьюдента;
r – коэффициент корреляции Спирмена;
m r – ошибка репрезентативности коэффициента корреляции Спирмена.
Оценка коэффициента корреляции Спирмена и его достоверности выполняется так же, как и коэффициента линейной корреляции Пирсона.
Корреляционный анализ (от лат. «соотношение», «связь») применяется для проверки гипотезы о статистической зависимости значений двух или нескольких переменных в том случае, если исследователь может их регистрировать (измерять), но не контролировать (изменять).
Когда повышение уровня одной переменной сопровождается повышением уровня другой, то речь идет о положительной корреляции. Если же рост одной переменной происходит при снижении уровня другой, то говорят об отрицательной корреляции. При отсутствии связи переменных мы имеем дело с нулевой корреляцией.
При этом переменными могут быть данные тестирований, наблюдений, экспериментов, социально-демографические характеристики, физиологические параметры, особенности поведения и т. д. К примеру, использование метода позволяет нам дать количественно выраженную оценку взаимосвязи таких признаков, как: успешность обучения в вузе и степень профессиональных достижений по его окончании, уровень притязаний и стресс, количество детей в семье и качества их интеллекта, черты личности и профессиональная ориентация, продолжительность одиночества и динамика самооценки, тревожность и внутригрупповой статус, социальная адаптированность и агрессивность при конфликте...
В качестве вспомогательных средств, процедуры корреляции незаменимы при конструировании тестов (для определения валидности и надежности измерения), а также как пилотажные действия по проверке пригодности экспериментальных гипотез (факт отсутствия корреляции позволяет отвергнуть предположение о причинно-следственной связи переменных).
Усиление интереса в психологической науке к потенциалу корреляционного анализа обусловлено целым рядом причин. Во-первых, становится допустимым изучение широкого круга переменных, экспериментальная проверка которых затруднена или невозможна. Ведь по этическим соображениям, к примеру, нельзя провести экспериментальные исследования самоубийств, наркомании, деструктивных родительских воздействий, влияния авторитарных сект. Во-вторых, возможно получение за короткое время ценных обобщений данных о больших количествах исследуемых лиц. В-третьих, известно, что многие феномены изменяют свою специфику во время строгих лабораторных экспериментов. А корреляционный анализ предоставляет исследователю возможность оперировать информацией, полученной в условиях, максимально приближенных к реальным. В-четвертых, осуществление статистического изучения динамики той или иной зависимости нередко создает предпосылки к достоверному прогнозированию психологических процессов и явлений.
Однако следует иметь в виду, что применение корреляционного метода связано и с весьма существенными принципиальными ограничениями.
Так, известно, что переменные вполне могут коррелировать и при отсутствии причинно-следственной связи между собой.
Это иногда возможно в силу действия случайных причин, при неоднородности выборки, из-за неадекватности исследовательского инструментария поставленным задачам. Такая ложная корреляция способна стать, скажем, «доказательством» того, что женщины дисциплинированнее мужчин, подростки из неполных семей более склонны к правонарушениям, экстраверты агрессивнее интровертов и т. п. Действительно, стоит отобрать в одну группу мужчин, работающих в высшей школе, и женщин, предположим, из сферы обслуживания, да еще и протестировать тех и других на знание научной методологии, то мы получим выражение заметной зависимости качества информированности от пола. Можно ли доверять такой корреляции?
Еще чаще, пожалуй, в исследовательской практике встречаются случаи, когда обе переменные изменяются под влиянием некоей третьей или даже нескольких скрытых детерминант.
Если мы обозначим цифрами переменные, а стрелками - направления от причин к следствиям, то увидим целый ряд возможных вариантов:
1→ 2→ 3→ 4
1← 2← 3→ 4
1← 2→ 3→ 4
1← 2← 3← 4
Невнимание к воздействию реальных, но неучтенных исследователями факторов позволило представить обоснования того, что интеллект - сугубо наследуемое образование (психогенетический подход) или, напротив, что он обусловлен лишь влиянием социальных составляющих развития (социогенетический подход). В психологии, следует заметить, нераспространены феномены, имеющие однозначную первопричину.
Кроме того, факт наличия взаимосвязи переменных не дает возможности выявить по итогам корреляционного исследования причину и следствие даже в тех случаях, когда промежуточных переменных не существует.
Например, при изучении агрессивности детей было установлено, что склонные к жестокости дети чаще сверстников смотрят фильмы со сценами насилия. Означает ли это, что такие сцены развивают агрессивные реакции или, наоборот, подобные фильмы привлекают самых агрессивных детей? В рамках корреляционного исследования дать правомерный ответ на этот вопрос невозможно.
Необходимо запомнить: наличие корреляций не является показателем выраженности и направленности причинно-следственных отношений.
Другими словами, установив корреляцию переменных, мы можем судить не о детерминантах и производных, а лишь о том, насколько тесно взаимосвязаны изменения переменных и каким образом одна из них реагирует на динамику другой.
При использовании данного метода оперируют той или иной разновидностью коэффициента корреляции. Его числовое значение обычно изменяется от -1 (обратная зависимость переменных) до +1 (прямая зависимость). При этом нулевое значение коэффициента соответствует полному отсутствию взаимосвязи динамики переменных.
Например, коэффициент корреляции +0,80 отражает наличие более выраженной зависимости между переменными, чем коэффициент +0,25. Аналогично, зависимость между переменными, характеризуемая коэффициентом -0,95, гораздо теснее, чем та, где коэффициенты имеют значения +0,80 или + 0,25 («минус» указывает нам только на то, что рост одной переменной сопровождается уменьшением другой).
В практике психологических исследований показатели коэффициентов корреляции обычно не достигают +1 или -1. Речь может идти только о той или иной степени приближения к данному значению. Часто корреляция считается выраженной, если ее коэффициент выше ±0,60. При этом недостаточной корреляцией, как правило, считаются показатели, располагающиеся в интервале от -0,30 до +0,30.
Однако, сразу следует оговорить, что интерпретация наличия корреляции всегда предполагает определение критических значений соответствующего коэффициента. Рассмотрим этот момент более подробно.
Вполне может получиться так, что коэффициент корреляции равный +0,50 в некоторых случаях не будет признан достоверным, а коэффициент, составляющий +0,30, окажется при определенных условиях характеристикой несомненной корреляции. Многое здесь зависит от протяженности рядов переменных (т. е. от количества сопоставляемых показателей), а также от заданной величины уровня значимости (или от принятой за приемлемую вероятность ошибки в расчетах).
Ведь, с одной стороны, чем больше выборка, тем количественно меньший коэффициент будет считаться достоверным свидетельством корреляционных отношений. А с другой стороны, если мы готовы смириться со значительной вероятностью ошибки, то можем посчитать за достаточную небольшую величину коэффициента корреляции.
Существуют стандартные таблицы с критическими значениями коэффициентов корреляции. Если полученный нами коэффициент окажется ниже, чем указанный в таблице для данной выборки при установленном уровне значимости, то он считается статистически недостоверным.
Работая с такой таблицей, следует знать, что пороговой величиной уровня значимости в психологических исследованиях обычно считается 0,05 (или пять процентов). Разумеется, риск ошибиться будет еще меньше, если эта вероятность составляет 1 на 100 или, еще лучше, 1 на 1000.
Итак, не сама по себе величина подсчитанного коэффициента корреляции служит основанием для оценки качества связи переменных, а статистическое решение о том, можно ли считать вычисленный показатель коэффициента достоверным.
Зная это, обратимся к изучению конкретных способов определения коэффициентов корреляции.
Значительный вклад в разработку статистического аппарата корреляционных исследований внес английский математик и биолог Карл Пирсон (1857-1936), занимавшийся в свое время проверкой эволюционной теории Ч. Дарвина.
Обозначение коэффициента корреляции Пирсона (r) происходит от понятия регрессии - операции по сведению множества частных зависимостей между отдельными значениями переменных к их непрерывной (линейной) усредненной зависимости.
Формула для расчета коэффициента Пирсона имеет такой вид:
где x, y - частные значения переменных, S - (сигма) - обозначение суммы, а - средние значения тех же самых переменных. Рассмотрим порядок использования таблицы критических значений коэффициентов Пирсона. Как мы видим, в левой ее графе указано число степеней свободы. Определяя нужную нам строчку, мы исходим из того, что искомая степень свободы равна n -2, где n - количество данных в каждом из коррелируемых рядов. В графах же, расположенных с правой стороны, указаны конкретные значения модулей коэффициентов.
Причем, чем правее расположен столбик чисел, тем выше достоверность корреляции, увереннее статистическое решение о её значимости.
Если у нас, например, коррелируют два ряда цифр по 10 единиц в каждом из них и получен по формуле Пирсона коэффициент, равный +0,65, то он будет считаться значимым на уровне 0,05 (так как больше критического значения в 0,632 для вероятности 0,05 и меньше критического значения 0,715 для вероятности 0,02). Такой уровень значимости свидетельствует о существенной вероятности повторения данной корреляции в аналогичных исследованиях.
Теперь приведем пример вычисления коэффициента корреляции Пирсона. Пусть в нашем случае необходимо определить характер связи между выполнением одними и теми же лицами двух тестов. Данные по первому из них обозначены как x , а по второму - как y .
Для упрощения расчетов введены некоторые тождества. А именно:
При этом мы имеем следующие результаты испытуемых (в тестовых баллах):
Заметим, что число степеней свободы равно в нашем случае 10. Обратившись к таблице критических значений коэффициентов Пирсона, узнаем, что при данной степени свободы на уровне значимости 0,999 будет считаться достоверным любой показатель корреляции переменных выше, чем 0,823. Это дает нам право считать полученный коэффициент свидетельством несомненной корреляции рядов x и y .
Применение линейного коэффициента корреляции становится неправомерным в тех случаях, когда вычисления производятся в пределах не интервальной, а порядковой шкалы измерения. Тогда используют коэффициенты ранговой корреляции. Разумеется, результаты при этом получаются менее точными, так как сопоставлению подлежат не сами количественные характеристики, а лишь порядки их следования друг за другом.
Среди коэффициентов ранговой корреляции в практике психологических исследований довольно часто применяют тот, который предложен английским ученым Чарльзом Спирменом (1863-1945), известным разработчиком двухфакторной теории интеллекта.
Используя соответствующий пример, рассмотрим действия, необходимые для определения коэффициента ранговой корреляции Спирмена.
Формула его вычисления выглядит следующим образом:
где d - разности между рангами каждой переменной из рядов x и y ,
n - число сопоставляемых пар.
Пусть x и y - показатели успешности выполнения испытуемыми некоторых видов деятельности (оценки индивидуальных достижений). При этом мы располагаем следующими данными:
Заметим, что вначале производится раздельное ранжирование показателей в рядах x и y . Если при этом встречается несколько равных переменных, то им присваивается одинаковый усредненный ранг.
Затем осуществляется попарное определение разности рангов. Знак разности несущественен, так как по формуле она возводится в квадрат.
В нашем примере сумма квадратов разностей рангов ∑d 2 равна 178. Подставим полученное число в формулу:
Как мы видим, показатель коэффициента корреляции в данном случае составляет ничтожно малую величину. Тем не менее, сопоставим его с критическими значениями коэффициента Спирмена из стандартной таблицы.
Вывод: между указанными рядами переменных x и y корреляция отсутствует.
Надо заметить, что использование процедур ранговой корреляции предоставляет исследователю возможность определять соотношения не только количественных, но и качественных признаков, в том, разумеется, случае, если последние могут быть упорядочены по возрастанию выраженности (ранжированы).
Нами были рассмотрены наиболее распространенные, пожалуй, на практике способы определения коэффициентов корреляции. Иные, более сложные или реже применяемые разновидности данного метода при необходимости можно найти в материалах пособий, посвященных измерениям в научных исследованиях.
Лекция № 4
1. Сущность теории корреляции.
2. Вычисление коэффициента корреляции.
3. Оценка точности коэффициента корреляции.
4. Ранговая корреляция.
5. Получение эмпирических формул зависимости явлений.
6. Множественная корреляция.
7. Частная корреляция.
8. Компонентный и факторный анализы.
1 Сущность теории корреляции. Диалектический подход к изучению закономерностей природы и общества требует рассмотрения процессов и явлений в их сложных взаимосвязях.
Явления географической среды зависят от многих, часто неизвестных и меняющихся факторов. Выявить и изучить такие связи помогает теория корреляции - один из центральных разделов математической статистики, исключительно важный для исследователей.
Рисунок 4.1 – Функциональная зависимость
Главные задачи корреляционного анализа - изучение формы, знака (плюс или минус) и тесноты связей.
Опишем кратко сущность теории корреляции.
Все связи делятся на функциональные, рассматриваемые в курсах математического анализа, и корреляционные.
Функциональная зависимость предполагает однозначное соответствие между величинами, когда численному значению одной величины, называемой аргументом, соответствует строго определенное значение другой величины - функции. При графическом изображении функциональной связи в прямоугольной системе координат (х, у), если по оси абсцисс отложить значение одного признака, а по оси ординат - другого, все точки расположатся на одной линии (прямой или кривой). Функциональные (идеальные) связи встречаются в абстрактных математических обобщениях. Например, зависимость площади круга от радиуса (R) выразится на графике определенной кривой (рис. 1), построенной по формуле
В любой опытной науке экспериментатор имеет дело не с функциональными связями, а с корреляционными, для которых характерен известный разброс результатов эксперимента. Причина колеблемости заключается в том, что функция (изучаемое явление) зависит не только от одного или нескольких рассматриваемых факторов, но и от множества других. Так, урожайность зерновых культур будет зависеть от ряда климатических, почвенных, экономических и других условий. Если связь урожайности с каким-либо из указанных факторов изобразить графически в системе координат (х, у), то получим разброс точек. Закономерности корреляционных связей и изучает теория корреляции.
В основе теории корреляции лежит представление о тесноте связи между изучаемыми явлениями (большая или малая связь). Для лучшего уяснения редко встречаемого в географической литературе понятия «теснота связи» представим его в графической форме путем построения так называемого поля корреляции. Для этого результаты каждого наблюдения за элементами статистической совокупности по двум признакам отмечаем точкой в системе прямоугольных координат х и у. Таким путем, например, можно изобразить зависимость урожайности зерновых по районам от гидротермического коэффициента. Чем больше разброс точек на поле корреляции, тем меньше теснота связи между изучаемыми явлениями. Рассмотрим два корреляционных поля (а и б, рис. 4.2). На поле а показана зависимость скорости роста оврагов (у) от площади водосбора (xi), на поле б - от угла наклона (хз). Меньший разброс точек первого корреляционного поля указывает на то, что скорость роста оврагов более тесно связана с площадями водосборов, чем с углами наклона. Иначе можно сказать: изучаемое явление зависит от первого картометрического показателя в большей степени.
По общему направлению роя точек - слева вверх направо - можно заключить, что в обоих случаях связь положительная (со знаком плюс).
Рисунок 4.2 – Корреляционная положительная связь:
а) большая теснота связи б) малая теснота связи
Рисунок 4.3 – Корреляционная отрицательная связь
При отрицательной (минусовой) зависимости рой точек направлен слева вниз направо (рис. 4.3). По характеру размещения точек в рое, их близости к оси можно визуально определить не только тесноту и знак связи, но и ее форму, которая подразделяется на прямолинейную и криволинейную.
Первая форма связи воспроизведена на рис. 4.2 а и б. Она условна и является частным случаем связи криволинейной. Однако именно прямолинейная связь (при всей ее условности) рассматривается в географических и других исследованиях наиболее часто из-за простоты математико-статистического аппарата ее оценки и возможности применения при изучении многофакторных связей и зависимостей.
Рисунок 4.4 – Криволинейная форма связи
Степень кривизны географических корреляционных связей во многом зависит от меридиональной протяженности изучаемых территорий. На рисунке 4.4 показана в схематизированном виде криволинейная зависимость среднегодовой температуры (t) от географической широты t(j) в глобальном масштабе - от южного полюса (ЮП) через экватор (Э) до северного полюса (СП). Чем меньше протяженность изучаемой территории с юга на север, тем больше оснований назвать ее прямолинейной.
Так, на восходящем отрезке АВ (южное полушарие) связь прямолинейная положительная, а на нисходящем отрезке CD (северное полушарие) - прямолинейная отрицательная. На приэкваториальном отрезке ВС связь сохраняется криволинейной.
Визуально-графический способ изучения тесноты и формы связи прост, нагляден, но недостаточно точен. Математико-статистическая обработка результатов наблюдений позволяет определить числовые значения, характеризующие как форму, так и тесноту связей.
2 Вычисление коэффициента корреляции. Наиболее распространенным показателем тесноты прямолинейной связи двух количественных признаков считается коэффициент корреляции (r). Его абсолютное численное значение находится в пределах от О до 1. Чем теснее связь, тем больше абсолютное значение г.
Если r = 0, то связи нет, если он равен ±1, то связь функциональная (точки расположатся строго по линии). Знак «плюс» (+) указывает на прямую (положительную) зависимость, «минус» – на обратную (отрицательную). Предельные значения коэффициента корреляции (r = + 1, 0 и - 1) в практике географических исследований не встречаются; обычно их числовые значения находятся между нулем и положительной или отрицательной единицей.
Рассмотрим наиболее распространенную схему вычисления, опирающуюся на предварительные расчеты средних арифметически, центральных отклонений и средних квадратических отклонений да каждого количественного признака. Предположим, необходимо найти тесноту связи между количеством осадков в июле (х) и урожайностью пшеницы (у). Эти данные вносятся в первые два столбца таблицы 1.
Схема вычисления коэффициента корреляции
– сумма по столбцу 5; n – число наблюдений; d x и d у – средние квадратические отклонения признаков х и у, вычисленные по формуле, приведенной в лекции 2. В нашем примере связь хорошая.
Таблица 1
X | У | Х-Х | У-У | (х-х).(у-у) | (Х-Х) 2 | (У-У) 2 |
-50 | -10 | |||||
-50 | -6 | |||||
-10 | -6 | |||||
-1 | -10 | |||||
-10 | -7 | |||||
1 600 | ||||||
800 180 0 0 1560 8600 464 |
Затем вычисляем разности между конкретными значениями исходных величин и их средними арифметическими. Результаты этих расчетов записываем в столбцы 3 и 4. Вычисление чисел в столбцах 5, б и 7 вполне понятно из надписей над соответствующими столбцами. Под каждым столбцом подсчитываем суммы. Коэффициент корреляции (г) вычисляем по формуле
Особо ценен 5-й столбец схемы, представляющий собой совокупность произведений центральных отклонений и названный ковариационным столбцом. Он позволяет проверить правильность определения знака и численного значения коэффициента корреляции по соотношению сумм плюсовых и минусовых показателей членов ковариационного ряда. Чем больше разнятся суммы плюсов и минусов, тем теснее связь исходных показателей. Примерное равенство их свидетельствует о низкой связи. Знак коэффициента корреляции будет соответствовать знаку превышения одной суммы над другой.
Коэффициент корреляции, как и d, проще определяется без вычисления отклонений от средней. Приведем схему такого вычисления по данным предыдущего примера. Схема проста, и для ее понимания достаточно надписей над столбцами таблицы 2.
3 Оценка точности коэффициента корреляции. Как и всякая другая выборочная математико-статистическая характеристика, коэффициент корреляции имеет свою ошибку репрезентативности, вычисляемую при больших выборках (n > 50) по формуле
Таким образом, точность вычисления коэффициента корреляции повышается с увеличением объема выборки; она велика также при большой тесноте связи (r близок к +1 или -1).
Приведем пример вычисления ошибки выборочного r.
Коэффициент корреляции между заболеваемостью дизентерией и одним из климатических факторов r = 0,82.
Показатель тесноты связи вычисляется по данным 64 пунктов. Тогда
Получив суммы по всем столбцам, вычисляем коэффициент корреляции по формуле
С точностью определения коэффициента корреляции тесно связан вопрос о реальности существования этой связи между рассматриваемыми признаками. При малом объеме выборки или малой тесноте связи часто ошибки, коэффициента корреляции оказываются настолько большими и сопоставимыми с самим коэффициентом, что встает вопрос, не случайно ли его значение отличается от нуля и соответствует ли определенный знак связи действительной ее направленности (плюсовой или минусовой?) Этот вопрос разрешается численным сравнением r
чаться от нуля случайно, и связь явлений не доказывается.
Проверим, существует ли связь между явлениями в нашем примере
связь недостоверна, то есть ее может и не быть.
4 Ранговая корреляция. В географических исследованиях при малых объемах выбора часто требуется обработать статистический материал быстро, не претендуя на высокую точность. Для этого можно ограничиться вычислением не коэффициента корреляции, а ранговой корреляции. Суть этого показателя состоит в том, что действительные значения количественных признаков заменяются их рангами, то есть последовательным рядом простых чисел, начиная с единицы в порядке возрастания признака Например, имеются данные об урожайности зерновых культур (у) и количестве осадков за два месяца перед колошением (х) по пяти районам (табл. 3, столбцы 1 и 2). Требуется вычислить тесноту связи. Заменяем значения признаков их рангами Хр и Ур (столбцы 3 и 4), находим разности рангов (столбец 5), затем вычисляем квадраты этих разностей (столбец 6).
Ранговый коэффициент корреляции (r) вычисляется по формуле
Этот показатель тесноты связи рассчитывается главным образом тогда, когда достаточно выяснить приближенную величину тесноты связи, и поэтому полученные результаты можно округлять лишь до десятого знака. Ранговый коэффициент корреляции представляет ценность еще и потому, что в распоряжение географа-исследователя часто поступают данные о многих природных и социально-экономических явлениях, заранее выраженные в рангах или баллах, а последние легко перевести в ранги.
5 Получение эмпирических формул зависимости явлений. Корреляционные методы позволяют определить не только тесноту связи явлений, но и эмпирические формулы зависимости, с помощью которых можно по одним признакам находить другие, часто недоступные или мало доступные наблюдению.
При вычислении коэффициента корреляции обычно получают пять основных статистических показателей - , , d x , d у и r. Эти показатели дают возможность легко и быстро рассчитать параметры линейной зависимости у от х. Известно, что такая зависимость выражается формулой
Параметры а и b вычисляются по формулам
Например, необходимо построить эмпирическую формулу линейной зависимости урожайности (у) от процента гумуса в почве (х). При вычислении коэффициента корреляции были получены следующие
По найденной формуле можно представить примерную урожайность, зная процент гумуса на любом участке изучаемой территории. Так, если процент гумуса равен 10, то следует ожидать урожайность у = 7+0,6-х ==7+0,6-10 =13 ц/га.
Чем больше абсолютная величина r , тем более точной и надежной будет эмпирическая формула зависимости.
6 Множественная корреляция. При изучении многофакторных связей встает проблема определения степени совместного влияния нескольких факторов на исследуемое явление.
Корреляционный анализ обычно начинается с вычисления парных коэффициентов корреляции (r xy), выражающих степень зависимости изучаемого явления (у) от какого-либо фактора (х). Например, определяются коэффициенты корреляции между урожайностью зерновых культур, с одной стороны, и рядом климатических, почвенных и экономических факторов - с другой. Анализ полученных парных коэффициентов корреляции позволяет выявить наиболее важные факторы урожайности.
Следующая ступень корреляционного анализа заключается в том, что вычисляется коэффициент множественной корреляции (R), показывающий степень совместного влияния важнейших факторов (x 1 , x 2 , ... x n) на изучаемое явление (у), например, на урожайность зерновых культур. Расчет для множества факторов представляет собой очень трудоемкий процесс, часто требующий применения ЭВМ.
Рассмотрим простейший пример вычисления степени совокупного влияния на урожайность (у) только двух факторов: гидротермического коэффициента (x 1) и стоимости основных средств производства (х 2). Для этого вначале следует определить коэффициенты корреляции между тремя признаками (у, x 1 , и х 2) попарно. Оказалось, что
1) коэффициент корреляции между урожайностью зерновых культур (у) и гидротермическим коэффициентом (х 1) == 0,80;
2) коэффициент корреляции между урожайностью зерновых культур (у) и стоимостью основных средств производства (х 2) == 0,67;
3) коэффициент корреляции между самими факторами урожайности (гидротермическим коэффициентом и стоимостью основных средств производства) = 0,31.
Коэффициент множественной корреляции, выражающий зависимость изучаемого явления от совокупного влияния двух факторов, вычисляется по формуле
В нашем примере
Совокупное влияние нескольких факторов на изучаемое явление больше, чем каждого из этих факторов в отдельности. Действительно, 0,92 больше как 0,80, так и 0,67.
Квадрат коэффициента множественной корреляции (R 2 = 0,84) означает, что колеблемость урожайности зерновых объясняется воздействием учтенных факторов (гидротермические коэффициенты и стоимость основных средств производства) на 84%. На долю остальных неучтенных факторов приходится всего 16%.
Линейную зависимость одной переменной (у) от двух других можно выразить уравнением
7 Частная корреляция. В предыдущем параграфе была рассмотрена схема вычисления я коэффициента множественной корреляции, выражающего степень совместного воздействия двух факторов (x 1 и х 2) на изучаемое явление у. Представляет интерес выявить, как тесно связан у с x 1 при постоянстве величине х 2 ; или у с х 2 при исключении влияния x 1 . Для этого следу вычислить коэффициент частной корреляции () по формуле:
, (13)
Где ryx 1 – коэффициент корреляции между первым фактором и изучаемым явлением (у), ryx 2 – коэффициент корреляции между вторым фактором (х 2) и изучаемым явлением (у), rx 1 x 2 – коэффициент корреляции между факторами (х 1) (х 2)
Пользу коэффициента частной корреляции покажем на приме изучения овражной эрозии. Известно, что скорость роста оврагов во многом зависит от энергии поверхностного стока, определяемой eё объемом и скоростью. Первая характеристика может быть выражена таким морфометрическим показателем, как площадь водосбора при вершине оврага, а скорость стока - углом наклона у вершины оврага. Были измерены скорости роста n-го числа оврагов (у), углы наклов (x 1) и площади водосбора (х 2), вычислены парные коэффициенты корреляции: =: - 0,2, = 0,8; == - 0,7. Отрицательное значение первого коэффициента корреляции выглядит парадоксальным. Действительно, трудно представить, чтобы скорости роста оврагов были тем больше, чем меньше угол наклона.
Рисунок 4.5 – Продольный профиль балки растущего оврага
Объяснить эту аномалию может обычно вогнутая форма продольного профиля балки, где растет овраг (рис. 4.5). Благодаря такой форме профиля наблюдается противоположность воздействия двух рассматриваемых факторов (x 1 , и х 2) на скорость роста оврагов (у): овраг, начинающий свое развитие в устье балка имеет малый угол наклона (a i), но зато наибольшую площадь водосбора, обеспечивающую максимальный объем стекающей воды. По мера приближения вершины оврага к водоразделу угол наклона растет (a 1 , a 2 , a 3 , a 4 , a 5), но площадь водосбора уменьшается (S 1 – S 5). Преобладающее воздействие площади водосбора (объема воды) над воздействием угла наклона (ее скорости) и привело к отрицательному значению зависимости скорости роста оврагов от угла наклона. Разнонаправленность воздействия двух рассмотренных факторов объясняет также минусовой знак их корреляционной взаимозависимости (== - 0.7). Для того, чтобы определить, насколько велика зависимость скорости роста оврагов от угла наклона при исключении влияния другого фактора (площади водосбора), необходимо вычислить коэффициент частной корреляции по формуле (13). Оказалось, что
Таким образом, только в результате корреляционных расчетов стало возможным убедиться в прямой, а не обратной зависимости скорости роста оврагов от угла наклона, но только при условии исключения воздействия площади водосбора.
8 Компонентный и факторный анализы. Из множества известных показателей тесноты корреляционных связей следует подчеркнуть особо важное значение коэффициента корреляции. Его отличает прежде всего повышенная информативность -способность оценивать не только тесноту, но и знак связи. Коэффициенты корреляции лежат в основе вычисления более сложных показателей, характеризующих взаимосвязи не двух, а большего числа факторов.
Рассмотренный в настоящей лекции аппарат множественной и частной корреляции правомерно считать начальным этапом изучения многофакторных корреляционных связей и зависимостей в географии. В условиях активной информатизации и компьютеризации человеческого общества наших дней перспектива развития этого направления видится в использовании более сложного аппарата факторного и компонентного анализов. Их объединяет: наличие исключительно большого объема разнообразной информации, необходимость ее математической обработки с помощью ЭВМ, способность «сжимать» информацию, выделять главные и исключать второстепенные показатели, факторы и компоненты.
Факторный анализ предназначен для сведения множества исходныx количественных показателей к малому числу факторов. На их основе вычисляются интегральные показатели, несущие в себе информацию нового качества. В основе математических расчетов лежит создание матрицы, элементами которой выступают обычные коэффициенты корреляции или ковариации, отражающие попарные связи между всеми исходными количественными показателями.
Компонентный анализ (метод главных компонент) в отличие о факторного анализа опирается на массовые расчеты не корреляций, дисперсий, характеризующих колеблемость количественных признаке; л
В результате таких математических расчетов любое самое большое число исходных данных заменяется ограниченным числомглавных компонент, отличающихся наиболее высокой дисперсностью, а, следовательно, и информативностью.
Желающим глубже познакомиться с теорией, методикой и накопленным опытом использования факторного и компонентного анализов в географических исследованиях следует обратиться к работам С.Н. Сербенюка (1972), Г.Т. Максимова (1972), П.И. Рахлина (1973), В.Т. Жукова, С.Н. Сербенюка, B.C. Тикунова (1980), В.М. Жуковской (1964), B.M. Жуковской, И.М. Кузиной (1973), В.М. Жуковской, И.Б. Мучник (1976):
В заключение отметим, что при криволинейных зависимостях коэффициенту корреляции не всегда можно доверять, особенно когда изучаются природные явления на территориях значительной протяженности с севера на юг. В этом случае лучше вычислять корреляционные отношения, которые нуждаются в большом объеме статистической совокупности и в предварительной группировке данных (Лукомский, 1961).
ВОПРОСЫ И ЗАДАНИЯ
1. Назовите главные задачи корреляционного анализа.
2. Опишите схему вычисления коэффициента корреляции.
3. Как вычисляется ошибка выборочного коэффициента корреляции?
4. Какова схема вычисления рангового коэффициента корреляции?
5. Опишите получение эмпирических формул зависимости для двух показателей. Каково их использование?
6. В чем сущность множественного коэффициента корреляции?
7. Каково назначение частного коэффициента корреляции?
8. Что такое компонентный анализ?
9. Дайте определение факторного анализа.
Корреляционно-регрессионный анализ - один из наиболее широко распространенных и гибких приемов обработки статистических данных. Данный метод начинает свой отсчет с 1795 г., когда английский исследователь Фрэнсис Гальтон предложил теоретические основы регрессионного метода, а в 1801 г. рассчитал с его помощью траекторию полета планеты Церера. Им же введен в статистику термин «корреляция». Можно также назвать
французского кристаллографа Огюста Браве, немецкого физика Густава Теодора Фехнера, английского экономиста и статистика Фрэнсиса Эджуорта, впервые высказывавших в середине-конце XIX в. идеи о количественном измерении связей явлений. В разное время над теорией анализа работали известные в области теоретической статистики ученые Карл Фридрих Гаусс (Германия), Адриен Мари Лежандр (Франция), Карл Пирсон (Англия) и др.
Корреляционно-регрессионный анализ состоит в построении и анализе экономико-математической модели в виде уравнения регрессии (корреляционной связи), характеризующего зависимость признака от определяющих его факторов.
Корреляционно-регрессионный анализ предполагает следующие этапы:
Предварительный анализ (здесь формулируются основные направления всего анализа, определяется методика оценки результативного показателя и перечень наиболее существенных факторов);
Сбор информации и ее первичная обработка;
Построение модели (один из важнейших этапов);
Оценка и анализ модели.
Задачи корреляционного анализа сводятся к выделению важнейших факторов, которые влияют на результативный признак, измерению тесноты связи между факторами, выявлению неизвестных причин связей и оценке факторов, оказывающих максимальное влияние на результат.
Задачи регрессионного анализа заключаются в установлении формы зависимости, определении уравнения регрессии и его использовании для оценки неизвестных значений зависимой переменной, прогнозировании возможных значений результативного признака при задаваемых значениях факторных признаков.
При использовании корреляционно-регрессионного анализа необходимо соблюдать следующие требования.
1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.
2. Все факторные признаки должны иметь количественное (цифровое) выражение.
3. Необходимо наличие массовости значений изучаемых показателей.
4. Причинно-следственные связи между явлениями и процессами могут быть описаны линейной или приводимой к линейной формой зависимости.
5. Не должно быть количественных ограничений на параметры модели связи.
6. Необходимо обеспечить постоянство территориальной и временной структуры изучаемой совокупности.
Корреляция - статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
В статистике принято различать следующие варианты зависимостей.
1. Парная корреляция - связь между двумя признаками (результативным и факторным).
2. Частная корреляция - зависимость между результативным и одним из факторных признаков при фиксированном значении других факторных признаков.
3. Множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.
Корреляционная связь - частный случай стохастической связи и состоит в том, что разным значениям одной переменной соответствуют различные средние значения другой.
Обязательное условие применения корреляционного метода - массовость значений изучаемых показателей, что позволяет выявить тенденцию, закономерность развития, форму взаимосвязи между признаками. Тогда, в соответствии с законом больших, чисел, влияние других факторов сглаживается, нейтрализуется. Наличие корреляционной связи присуще многим общественным явлениям.
Показатели тесноты связи между признаками называют коэффициентами корреляции. Их выбор зависит от того, в каких шкалах измерены признаки. Основными шкалами являются:
1) номинальная шкала (наименований) предназначена для описания принадлежности объектов к определенным социальным группам (например, коэффициенты ассоциации и контингенции, коэффициенты Пирсона и Чупрова);
2) шкала порядка (ординальная) применяется для измерения упорядоченности объектов по одному или нескольким признакам (например, коэффициенты Спирмена и Кенделла);
3) количественная шкала используется для описания количественных показателей - например, линейный коэффициент корреляции и корреляционное отношение.
Корреляционный анализ - метод статистического исследования экспериментальных данных, позволяющий определить степень линейной зависимости между переменными.
Парная линейная корреляция - простейшая система корреляционной связи, представляющая линейную связь между двумя признаками. Ее практическое значение состоит в выделении одного важнейшего фактора, который и определяет вариацию результативного признака.
Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции, который был впервые введен в начале 1890-х гг. Пирсоном, Эджуортом и Велдоном. В теории разработаны и на практике применяются различные варианты формул расчета данного коэффициента:
Где ,
где n - число наблюдений.
При малом числе наблюдений для практических вычислений линейный коэффициент корреляции удобнее исчислять по формуле:
,
где r принимает значения в пределах от -1 до 1.
Чем ближе линейный коэффициент корреляции по абсолютной величине к I, тем теснее связь. С другой стороны, если он равен 1, то зависимость является не стохастической, а функциональной. Знак при нем указывает направление связи: знак «-» соответствует обратной зависимости, «+» - прямой. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.
Степень взаимного влияния факторов в зависимости от коэффициента корреляции приведена в табл. 1.
Таблица 1
Количественная оценка тесноты связи
при различных значениях коэффициента корреляции
После того, как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию зависимостей, то есть к регрессионному анализу.
Термин «регрессия» (произошел от латинского regression - отступление, возврат к чему-либо) был также введен Ф. Гальтоном в 1886 г. Обрабатывая статистические данные в связи с анализом наследственности роста, он отметил прямую зависимость между ростом родителей и их детей (наблюдение само по себе не слишком глубокое). Но относительно старших сыновей ему удалось установить более тонкую зависимость. Он рассчитал, что средний рост старшего сына лежит между средним ростом населения и средним ростом родителей. Если рост родителей выше среднего, то их наследник, как правило, ниже; если средний рост родителей ниже среднего, то рост их потомка выше. Когда Гальтон нанес на график средний рост старших сыновей для различных значений среднего роста родителей, он получил почти прямую линию, проходящую через нанесенные точки.
Поскольку рост потомства стремится двигаться к среднему, Гальтон назвал это явление регрессией к среднему состоянию, а линию, проходящую через точки на графике, - линией регрессии.
Регрессивный анализ применяется в тех случаях, когда необходимо отыскать непосредственно вид зависимости х и у. При этом предполагается, что независимые факторы не случайные величины, а результативный показатель у имеет постоянную, независимую от факторов дисперсию и стандартное отклонение.
Одна из проблем построения уравнения регрессии - размерность, то есть определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным.
Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, быстрее и качественнее реализуемую. В то же время построение модели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс в единой системе национального счетоводства.
При построении модели число факторных признаков должно быть в 5-6 раз меньше объема изучаемой совокупности.
Если результативный признак с увеличением факторного признака равномерно возрастает или убывает, то такая зависимость является линейной и выражается уравнением прямой.
Линейная регрессия сводится к нахождению уравнения вида:
где х - индивидуальное значение факторного признака; а 0 , а 1 - параметры уравнения прямой (уравнения регрессии); у х - теоретическое значение результирующего фактора.
Данное уравнение показывает среднее значение изменения результативного признака х на одну единицу его измерения. Знак параметра показывает направление этого изменения. На практике построение линейной регрессии сводится к оценке ее параметров а 0 , а 1.
При классическом подходе параметры уравнения а 0 , а 1 находятся методом наименьших квадратов, который позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от расчетных, теоретических (у х) была бы минимальной.
Для нахождения минимума данной функции приравняем к нулю частные производные и тем самым получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
В уравнении прямой параметр а 0 экономического смысла не имеет, параметр а 1 является коэффициентом регрессии и показывает изменение результативного признака при изменении факторного на единицу.
Или по следующим формулам:
Где , , ,
Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость, выраженная формулой
Часто исследуемые признаки имеют разные единицы измерения, поэтому для оценки влияния факторного признака на результативный применяется коэффициент эластичности. Он рассчитывается для каждой точки и в среднем по всей совокупности по формуле:
где у" х - первая производная уравнения регрессии.
Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак при изменении факторного признака на 1%.
Чтобы иметь возможность судить о сравнительной связи влияния отдельных факторов и о тех резервах, которые в них заложены, должны быть вычислены частные (средние) коэффициенты эластичности .
Различия в единицах измерения факторов устраняют с помощью частных (средних) коэффициентов эластичности , которые рассчитываются по формуле:
где а i - коэффициент регрессии при факторе х; - средние значения факторного и результативного признаков.
Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1 % каждого фактора при фиксированном положении других факторов.
Альтернативным показателем степени зависимости между двумя переменными является линейный коэффициент детерминации , представляющий собой квадрат линейного коэффициента корреляции r 2 . Его числовое значение всегда заключено в пределе от 0 до 1. Он характеризует долю вариации (разброса) зависимой переменной. Значение коэффициента детерминации непосредственно указывает степень влияния независимого фактора на результативный показатель.
Степень тесноты связи полностью соответствует теоретическому корреляционному отношению , которое является универсальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции.
С помощью теоретического корреляционного отношения измеряется теснота связи любой формы, а посредством линейного коэффициента корреляции - только прямолинейной связи.
Теоретическое корреляционное отношение рассчитывается по формулам:
где - факторная дисперсия; - общая дисперсия.
Для упрощения расчетов меры тесноты корреляционной связи часто применятся индекс корреляционной связи, который определяется по формулам:
где - остаточная дисперсия.
Линейные модели отличаются простой интерпретируемостью и хорошо разработанными приемами оценивания коэффициентов регрессии. Обычно для них все три наиболее распространенных метода статистического оценивания - максимального правдоподобия, наименьших квадратов и моментов - дают оптимальные решения и соответственно приводят к оценкам, обладающим линейностью, эффективностью, несмещенностью. Принимая во внимание, что линейные регрессионные модели не могут с одинаково высокой степенью достоверности описывать многообразные процессы, происходящие в реальности, их дополняет большой класс нелинейных моделей. Для последних, однако, с учетом их сложности и специфичности приемов параметрического оценивания предпочтительным остается приведение к простой линейной форме.