Социальные психологи, как правило, стремятся не только описать социальное поведение. Цель социальной науки - понять отношения между переменными и быть в состоянии предсказать, когда и как будут себя вести люди в разных социальных ситуациях. Например, каковы взаимосвязи между порнографией, которую видят люди, и вероятностью их участия в актах насилия? Существует ли связь между количеством насилия, которое дети видят по телевизору, и их агрессивностью? Чтобы ответить на такие вопросы, исследователи часто используют другой подход - корреляционный метод.

Корреляционный метод (correlational method) - это техника, посредством которой систематически измеряются две или более переменные и отношения между ними. В корреляционном исследовании поведение людей и установки можно определить по-разному. Так же как и в методе наблюдения, исследователи иногда непосредственно наблюдают за человеческим поведением. Например, применив корреляцонный метод, психологи имеют возможность проверить взаимосвязь между детским агрессивным поведением и просмотром телевизионных передач с насилием. Они также могут наблюдать за детьми на игровой площадке, однако теперь стоит иная цель - оценить взаимозависимость, или корреляцию, между детской агрессивностью и другими факторами, как, например, их привычкой смотреть телевизор, что исследователи также измеряют.

Метод корреляции (correlational method) - техника, при помощи которой систематически измеряются две или более переменные и оценивается зависимость между ними (например, как можно, зная одну переменную, предсказать другую).

Исследователи проверяют наличие подобных взаимосвязей путем подсчета коэффициента корреляции, статистического показателя, оценивающего, насколько вы можете предсказывать одну переменную, зная другую, например, насколько вы можете предсказывать вес человека, зная его рост. Положительная корреляция означает, что увеличение значения одной переменной сопровождается повышением значения другой.

Высота и вес позитивно коррелируют между собой; чем человек выше, тем больше будет его вес. Отрицательная корреляция, наоборот, подразумевает, что увеличение показателей одной переменной связано с уменьшением показателей другой. Если бы высота и вес людей коррелировали отрицательно, мы бы выглядели очень смешно - коротышки, например, дети походили бы на пингвинов, а высонимно) об их поведении или отношениях. Опросы - наиболее удобный способ измерения отношений людей; например, людям можно позвонить по телефону и спросить, какого кандидата они будут поддерживать на приближающихся выборах или что они думают по поводу тех или иных социальных проблем. Исследователи нередко применяют корреляционный метод к результатам опросов, чтобы определить, насколько ответы испытуемых на одни вопросы предопределяют их ответы на другие. Политологи, например, могут быть заинтересованы в том, можно ли на основе мнений людей о какой-либо социальной проблеме, такой как регулирование торговли оружием, предсказывать, как они проголосуют. Психологи часто используют опросы для содействия пониманию социального поведения и отношений, например, рассматривая, связано ли то, что говорят люди о количестве читаемой ими порнографии, с их отношением к женщинам.

Опросы - исследования, в которых репрезентативной выборке людей задаются вопросы (часто анонимно) об их поведении или отношениях.

У опросов есть много преимуществ, в частности, они позволяют исследователям судить о взаимосвязях между труднонаблюдаемыми переменными, подобными тому, насколько часто люди занимаются безопасным сексом. Когда интересующие переменные нельзя легко пронаблюдать, исследователи полагаются на опросы, в которых людей спрашивают об их убеждениях, отношениях и поведении. Исследователь проверяет наличие взаимосвязей между полученными ответами, например, чаще ли кие люди, как игроки в баскетбол, были бы совсем тощими - «кожа и кости»! Возможно, конечно, что две переменные совершенно не коррелируют, так что исследователь не сможет предсказать одну переменную, зная другую.

Коэффициент корреляции (correlation coefficient) - статистическая величина, которая оценивает, насколько хорошо вы можете предсказать одну переменную, зная другую; скажем, насколько вы можете предсказать вес людей, зная их рост.

Коэффициент корреляции выражается числом от -1,00 до +1,00. Корреляция 1,00 означает, что две переменные полностью коррелируют в позитивном направлении; таким образом, зная один показатель у человека, исследователь может точно определить второй. В повседневной жизни полные корреляции, конечно, встречаются редко. Например, в одном исследовании было выявлено, что корреляция между ростом и весом составляет 0,47 для выборки мужчин в возрасте 18-24 лет (Freedman, Pisani, Purves & Adhikari, 1991). Это означает, что в среднем более высокие люди тяжелее низкорослых, но есть и исключения. Корреляция -1,00 означает полную отрицательную корреляцию, а нулевая корреляция означает, что две переменные не коррелируют.

Корреляция - это степень, в которой события или личные характеристики человека зависят друг от друга. Корреляционный метод - процедура в исследовании, использующаяся, чтобы определить взаимосвязь между переменными. Данный метод может, например, ответить на вопрос: «существует ли корреляция между количеством стресса, с которым сталкиваются люди и степенью испытываемой ими депрессии?» То есть, по мере того, как люди продолжают переживать стресс, насколько увеличивается вероятность того, что они впадут в депрессию?

Корреляция - степень зависимости друг от друга событий или характеристик.

Корреляционный метод - процедура исследований, которая используется для определения того, насколько события или характеристики зависят друг от друга.

Чтобы ответить на этот вопрос, исследователи подсчитывают баллы жизненного стресса (например, количество угрожающих событий, переживаемых человеком в определенный период времени) и баллы депрессии (например, баллы в опросниках по депрессии). Как правило, исследователи обнаруживают, что эти переменные увеличиваются или уменьшаются вместе (Stader & Hokanson, 1998; Paykel & Cooper, 1992). To есть чем больше количество баллов стресса в жизни определенного человека, тем выше его или ее сумма баллов по депрессии. Корреляции такого рода имеют позитивную направленность и их называют позитивной корреляцией.

Корреляция может иметь и негативную, а не позитивную направленность. При негативной корреляции, когда значение одной переменной возрастает, значение другой уменьшается. Исследователи обнаружили, например, негативную корреляцию между депрессией и уровнем активности. Чем больше депрессия человека, тем меньше его занятость.

Существует еще и третья взаимосвязь в корреляционном исследовании. Две переменные могут быть не взаимосвязаны, то есть между ними не существует последовательной взаимосвязи. Когда число одной переменной возрастает, показатели другой переменной иногда возрастают, иногда уменьшаются. Исследования обнаружили, например, что депрессия и интеллект не зависят друг от друга.

Кроме знания направленности корреляции исследователям нужно знать ее величину или силу. То есть насколько близко эти две переменные соотносятся между собой. Действительно ли одна переменная всегда зависит от другой или их взаимосвязь менее определенна? Когда обнаруживается тесная взаимосвязь двух переменных у многих испытуемых, то говорят, что корреляция - высокая или устойчивая.

Направленность и величина корреляции часто имеет численное значение и выражается в статистическом понятии - коэффициенте корреляции (r). Коэффициент корреляции может варьироваться от +1.00, показывающего полную позитивную корреляцию между двумя переменными, и до -1.00 - этот коэффициент указывает на полную негативную корреляцию. Знак коэффициента (+ или -) обозначает направленность корреляции; число представляет ее величину. Чем ближе коэффициент к 0, тем слабее корреляция и меньше ее величина. Так корреляции +0.75 и -0.75 имеют одинаковые величины, а корреляция +.25 слабее и той и другой корреляции.

Коэффициент корреляции (r) - статистический термин, указывающий направленность и величину корреляции, колеблющийся от -1.00 до +1.00.

Поведение людей меняется, и многие человеческие реакции можно оценивать лишь приблизительно. Поэтому в психологических исследованиях корреляции не достигают величины полной позитивной или полной негативной корреляции. В одном исследовании стресса и депрессии, проводившемся с 68 взрослыми, корреляция между двумя переменными составила +0.53 (Miller et al., 1976). Несмотря на то, что эту корреляцию едва ли можно назвать абсолютной, ее величина в психологическом исследовании считается большой.

При наличии двух рядов значений, подвергающихся ранжированию, рационально рассчитывать ранговую корреляцию Спирмена.

Такие ряды могут представляться:

  • парой признаков, определяемых в одной и той же группе исследуемых объектов;
  • парой индивидуальных соподчиненных признаков, определяемых у 2 исследуемых объектов по одинаковому набору признаков;
  • парой групповых соподчиненных признаков;
  • индивидуальной и групповой соподчиненностью признаков.

Метод предполагает проведение ранжирования показателей в отдельности для каждого из признаков.

Наименьшее значение имеет наименьший ранг.

Этот метод относится к непараметрическому статистическому методу, предназначенному для установления существования связи изучаемых явлений:

  • определение фактической степени параллелизма между двумя рядами количественных данных;
  • оценка тесноты выявленной связи, выражаемой количественно.

Корреляционный анализ

Статистический метод, предназначенный для выявления существования зависимости между 2 и более случайными величинами (переменными), а также ее силы, получил название корреляционного анализа.

Получил свое название от correlatio (лат.) – соотношение.

При его использовании возможны варианты развития событий:

  • наличие корреляции (положительная либо отрицательная);
  • отсутствие корреляции (нулевая).

В случае установления зависимости между переменными речь идет об их коррелировании. Иными словами, можно сказать, что при изменении значения Х, обязательно будет наблюдаться пропорциональное изменение значения У.

В качестве инструментов используются различные меры связи (коэффициенты).

На их выбор оказывает влияние:

  • способ измерения случайных чисел;
  • характер связи между случайными числами.

Существование корреляционной связи может отображаться графически (графики) и с помощью коэффициента (числовое отображение).

Корреляционная связь характеризуется такими признаками:

  • сила связи (при коэффициенте корреляции от ±0,7 до ±1 – сильная; от ±0,3 до ±0,699 – средняя; от 0 до ±0,299 – слабая);
  • направление связи (прямая или обратная).

Цели корреляционного анализа

Корреляционный анализ не позволяет установить причинную зависимость между исследуемыми переменными.

Он проводится с целью:

  • установления зависимости между переменными;
  • получения определенной информации о переменной на основе другой переменной;
  • определения тесноты (связи) этой зависимости;
  • определение направления установленной связи.

Методы корреляционного анализа


Данный анализ может выполняться с использованием:

  • метода квадратов или Пирсона;
  • рангового метода или Спирмена.

Метод Пирсона применим для расчетов требующих точного определения силы, существующей между переменными. Изучаемые с его помощью признаки должны выражаться только количественно.

Для применения метода Спирмена или ранговой корреляции нет жестких требований в выражении признаков – оно может быть, как количественным, так и атрибутивным. Благодаря этому методу получается информация не о точном установлении силы связи, а имеющая ориентировочный характер.

В рядах переменных могут содержаться открытые варианты. Например, когда стаж работы выражается такими значениями, как до 1 года, более 5 лет и т.д.

Коэффициент корреляции

Статистическая величина характеризующая характер изменения двух переменных получила название коэффициента корреляции либо парного коэффициента корреляции. В количественном выражении он колеблется в пределах от -1 до +1.

Наиболее распространены коэффициенты:

  • Пирсона – применим для переменных принадлежащих к интервально шкале;
  • Спирмена – для переменных порядковой шкалы.

Ограничения использования коэффициента корреляции

Получение недостоверных данных при расчете коэффициента корреляции возможно в тех случаях, когда:

  • в распоряжении имеется достаточное количество значений переменной (25-100 пар наблюдений);
  • между изучаемыми переменными установлено, например, квадратичное соотношение, а не линейное;
  • в каждом случае данные содержат больше одного наблюдения;
  • наличие аномальных значений (выбросов) переменных;
  • исследуемые данные состоят из четко выделяемых подгрупп наблюдений;
  • наличие корреляционной связи не позволяет установить какая из переменных может рассматриваться в качестве причины, а какая – в качестве следствия.

Проверка значимости корреляции

Для оценки статистических величин используется понятие их значимости или же достоверности, характеризующей вероятность случайного возникновения величины либо крайних ее значений.

Наиболее распространенным методом определения значимости корреляции является определение критерия Стьюдента.

Его значение сравнивается с табличным, количество степенней свободы принимается как 2. При получении расчетного значения критерия больше табличного, свидетельствует о значимости коэффициента корреляции.

При проведении экономических расчетов достаточным считается доверительный уровень 0,05 (95%) либо 0,01 (99%).

Ранги Спирмена

Коэффициент ранговой корреляции Спирмена позволяет статистически установить наличие связи между явлениями. Его расчет предполагает установление для каждого признака порядкового номера – ранга. Ранг может быть возрастающим либо убывающим.

Количество признаков, подвергаемых ранжированию, может быть любым. Это достаточно трудоемкий процесс, ограничивающий их количество. Затруднения начинаются при достижении 20 признаков.

Для расчета коэффициента Спирмена пользуются формулой:

в которой:

n – отображает количество ранжируемых признаков;

d – не что иное как разность между рангами по двум переменным;

а ∑(d2) – сумма квадратов разностей рангов.

Применение корреляционного анализа в психологии

Статистическое сопровождение психологических исследований позволяет сделать их более объективными и высоко репрезентативными. Статистическая обработка данных полученных в ходе психологических экспериментов способствует извлечению максимума полезной информации.

Наиболее широкое применение в обработке их результатов получил корреляционный анализ.

Уместным является проведение корреляционного анализа результатов, полученных при проведении исследований:

  • тревожности (по тестам R. Temml, M. Dorca, V. Amen);
  • семейных взаимоотношений («Анализ семейных взаимоотношений» (АСВ) опросник Э.Г. Эйдемиллера, В.В. Юстицкиса);
  • уровня интернальности-экстернальности (опросник Е.Ф. Бажина, Е.А. Голынкиной и А.М. Эткинда);
  • уровня эмоционального выгорания у педагогов (опросник В.В. Бойко);
  • связи элементов вербального интеллекта учащихся при разно профильном обучении (методика К.М. Гуревича и др.);
  • связи уровня эмпатии (методика В.В. Бойко) и удовлетворенностью браком (опросник В.В. Столина, Т.Л. Романовой, Г.П. Бутенко);
  • связи между социометрическим статусом подростков (тест Jacob L. Moreno) и особенностями стиля семейного воспитания (опросник Э.Г. Эйдемиллера, В.В. Юстицкиса);
  • структуры жизненных целей подростков, воспитанных в полных и неполных семьях (опросник Edward L. Deci, Richard M. Ryan Ryan).

Краткая инструкция к проведению корреляционного анализа по критерию Спирмена

Проведение корреляционного анализа с использованием метода Спирмена выполняется по следующему алгоритму:

  • парные сопоставимые признаки располагаются в 2 ряда, один из которых обозначается с помощью Х, а другой У;
  • значения ряда Х располагаются в порядке возрастания либо убывания;
  • последовательность расположения значений ряда У определяется их соответствием значений ряда Х;
  • для каждого значения в ряду Х определить ранг — присвоить порядковый номер от минимального значения к максимальному;
  • для каждого из значений в ряду У также определить ранг (от минимального к максимальному);
  • вычислить разницу (D) между рангами Х и У, прибегнув к формуле D=Х-У;
  • полученные значения разницы возводятся в квадрат;
  • выполнить суммирование квадратов разниц рангов;
  • выполнить расчеты по формуле:

Пример корреляции Спирмена

Необходимо установить наличие корреляционной связи между рабочим стажем и показателем травматизма при наличии следующих данных:

Наиболее подходящим методом анализа является ранговый метод, т.к. один из признаков представлен в виде открытых вариантов: рабочий стаж до 1 года и рабочий стаж 7 и более лет.

Решение задачи начинается с ранжирования данных, которые сводятся в рабочую таблицу и могут быть выполнены вручную, т.к. их объем не велик:

Рабочий стаж Число травм Порядковые номера (ранги) Разность рангов Квадрат разности рангов
d(х-у)
до 1 года 24 1 5 -4 16
1-2 16 2 4 -2 4
3-4 12 3 2,5 +0,5 0,25
5-6 12 4 2,5 +1,5 2,5
7 и более 6 5 1 +4 16
Σ d2 = 38,5

Появление дробных рангов в колонке связано с тем, что в случае появления вариант одинаковых по величине находится среднее арифметическое значение ранга. В данном примере показатель травматизма 12 встречается дважды и ему присваиваются ранги 2 и 3, находим среднее арифметическое этих рангов (2+3)/2= 2,5 и помещаем это значение в рабочую таблицу для 2 показателей.
Выполнив подстановку полученных значений в рабочую формулу и произведя несложные расчёты получаем коэффициент Спирмена равный -0,92

Отрицательное значение коэффициента свидетельствует о наличии обратной связи между признаками и позволяет утверждать, что небольшой стаж работы сопровождается большим числом травм. Причем, сила связи этих показателей достаточно большая.
Следующим этапом расчётов является определение достоверности полученного коэффициента:
рассчитывается его ошибка и критерий Стьюдента

Методы корреляции

Все явления общественной жизни взаимосвязаны и взаимообусловлены. Задача статистики состоит в том, чтобы выявить и измерить связи и зависимости между изучаемыми явлениями.

Взаимосвязанные признаки подразделяются на факторные (под их воздействием изменяются другие, зависящие от них признаки) и результативные.

Связи по степени тесноты могут быть функциональными (при которых определенному значению факторного признака соответствует строго определенное значение результативного признака; для выявления такой связи достаточно одного наблюдения), статистическими (когда одному и тому же значению факторного признака могут соответствовать несколько значений результативного признака; эти связи проявляются в массе случаев и при этом в среднем). Функциональные связи иначе называются полными, а статистические - неполными или корреляционными.

Корреляционная зависимость проявляется только в средних величинах и выражает числовое отношение между ними в виде тенденции к возрастанию или убыванию одной переменной величины при возрастании или убывании другой.

Корреляционная связь является свободной, неполной и неточной связью.

Поскольку корреляционная связь является статистической, первым условием возможности ее изучения является общее условие всякого статистического исследования: наличие данных по достаточно большой совокупности явлений. По отдельным явлениям можно получить совершенно превратное представление о связи признаков, ибо в каждом отдельном явлении значения признаков кроме закономерной составляющей имеют случайное отклонение (вариацию).

Вторым условием закономерного проявления корреляционной связи служит условие, обеспечивающее надежное выражение закономерности в средней величине. Кроме уже указанного большого числа единиц совокупности для этого необходима достаточная качественная однородность совокупности. Нарушение этого условия может извратить параметры корреляции.

Прямые и обратные связи. В зависимости от направления действия, функциональные и стахостические связи могут быть прямые и обратные. При прямой связи направление изменения результативного признака совпадает с направлением изменения признака-фактора, то есть с увеличением факторного признака увеличивается и результативный, и, наоборот, с уменьшением факторного признака уменьшается и результативный признак. В противном случае между рассматриваемыми величинами существуют обратные связи. Например, чем выше квалификация рабочего (разряд), тем выше уровень производительности труда - прямая связь. А чем выше производительность труда, тем ниже себестоимость единицы продукции - обратная связь.

Прямолинейные и криволинейные связи. По аналитическому выражению (форме) связи могут быть прямолинейными и криволинейными. При прямолинейной связи с возрастанием значения факторного признака происходит непрерывное возрастание (или убывание) значений результативного признака. Математически такая связь представляется уравнением прямой, а графически - прямой линией. Отсюда ее более короткое название - линейная связь. При криволинейных связях с возрастанием значения факторного признака возрастание (или убывание) результативного признака происходит неравномерно, или же направление его изменения меняется на обратное. Геометрически такие связи представляются кривыми линиями (гиперболой, параболой и т.д.).

Однофакторные и многофакторные связи. По количеству факторов, действующих на результативный признак, связи различаются: однофакторные (один фактор) и многофакторные (два и более факторов). Однофакторные (простые) связи обычно называются парными (т.к. рассматривается пара признаков). Например, корреляционная связь между прибылью и производительностью труда. В случае многофакторной (множественной) связи имеют в виду, что все факторы действуют комплексно, то есть одновременно и во взаимосвязи. Например, корреляционная связь между производительностью труда и уровнем организации труда, автоматизации производства, квалификации рабочих, производственным стажем, простоями и другими факторными признаками. С помощью множественной корреляции можно охватить весь комплекс факторных признаков и объективно отразить существующие множественные связи.

Для изучения, измерения и количественного выражения взаимосвязей между явлениями статистикой применяются различные методы, такие как: метод сопоставления параллельных рядов, балансовый, графический, методы аналитических группировок, дисперсионного и корреляционного анализа

Метод параллельных рядов заключается в том, что полученные в результате сводки и обработки материалы располагают в виде параллельных рядов и сопоставляют их между собой для установления характера и тесноты связи.

Балансовый метод состоит в том, что данные взаимосвязанных показателей изображаются в виде таблицы и располагаются таким образом, чтобы итоги между отдельными ее частями были равны, т.е. чтобы баланс. Балансовый метод используется для характеристики взаимосвязи между производством и распределением продуктов, денежными доходами и расходами населения и т.д. почти все внутренние и внешние хозяйственные связи выражаются в виде балансов.

Метод аналитических группировок. Сущность метода аналитических группировок состоит в том, что единицы статистической совокупности группируются, как правило, по факторному признаку и для каждой группы рассчитывается средняя или относительная величина по результативному признаку. Затем изменения средних или относительных значений результативного признака сопоставления с изменениями факторного признака для выявления характера связи между ними.

Корреляционно-регрессионный анализ. Корреляционная связь - связь, проявляющаяся при достаточно большом числе наблюдений в виде определенной зависимости между средним значением результативного признака и признаками-факторами.

Изучение корреляционных связей сводится в основном к решению следующих задач:

  • - выявление наличия (или отсутствия) корреляционной связи между изучаемыми признаками. Эта задача может быть решена на основе параллельного сопоставления (сравнения) значенийх иу уn единиц совокупности; с помощью группировок; построения и анализа специальных корреляционных таблиц; а также построения диаграмм рассеяния;
  • - измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов. Эта часть исследования называется корреляционный анализ;
  • - определение уравнения регрессии - математической модели, в которой среднее значение результативного признакау рассматривается как функция одной или нескольких переменных - факторных признаков. Эта часть исследования называется регрессионный анализ.

Задача корреляционного анализа - измерение тесноты связи между варьируемыми признаками и оценка факторов, оказывающих наибольшее влияние.

Задача регрессионного анализа - выбор типа модели (формы связи), устанавливающих степени влияния независимых переменных.

Связь признаков проявляется в их согласованной вариации, при этом одни признаки выступают как факторные, а другие - как результативные. Причинно-следственная связь факторных и результативных признаков характеризуется по степени:

  • - тесноты;
  • - направлению;
  • - аналитическому выражению.

Регрессионный анализ. Для оценки параметров уравнений регрессии наиболее часто используется метод наименьших квадратов (МНК), суть которого заключается в следующем требовании: искомые теоретические значения результативного признака должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических (фактических) значений, т.е.

При изучении связей показателей применяются различного вида уравнения прямолинейной и криволинейной связи. Так, при анализе прямолинейной зависимости применяется уравнение:

При криволинейной зависимости применяется ряд математических функций:

полулогарифмическая

показательная

степенная

параболическая

гиперболическая

Наиболее часто используемая форма связи между коррелируемыми признаками - линейная, при парной корреляции выражается уравнением,где а 0 - среднее значение в точкеx =0, поэтому экономической интерпретации коэффициента нет; а 1 - коэффициент регрессии, показывает, на сколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.

Система нормальных уравнений МНК для линейной парной регрессии имеет следующий вид:

Отсюда можно выразить коэффициенты регрессии:

Для практического использования регрессионных моделей необходима проверка их адекватности. При численности объектов анализа до 30 единиц возникает необходимость проверить, насколько вычисленные параметры характерны для отображаемого комплекса условий, не являются ли полученные значения параметров результатом действия случайных причин. Значимость коэффициентов регрессии применительно к совокупностиn <30определяется с помощью t-критерия Стьюдента. При этом вычисляются фактические значения t-критерия:

для параметра а0: ,

для параметра а 1: .

среднее квадратическое отклонение результативного признака от выровненных значений.

среднее квадратическое отклонение факторного признака от общей средней.

Полученные по формуламфактические значения и сравниваются с критическим, который получают по таблице Стьюдента с учетом принятого уровня значимости и числа степеней свободы н =n-k- 1, где n - число наблюдений, k - число факторов, включенных в уравнение регрессии). Рассчитанные параметры а 0 и а 1 уравнения регрессии признаются типичными, если t фактическое больше t критического.

Корреляционный анализ позволяет установить тесноту связи между факторами и решить следующие задачи:

  • - ответить на вопрос: существует ли связь?
  • - выявить изменение связи в различных ситуациях реальных данных;
  • - определить наиболее значимые факторы в результативном признаке;

Различают:

  • - парную корреляцию - это зависимость между результативным и факторным признаком;
  • - частную корреляцию - это зависимость между результативным и одним факторным признаком при фиксированном значении других факторных признаков;

Множественную - многофакторное влияние в статической модели.

К простейшим показателям тесной связи относятся:

  • - линейный коэффициент корреляции К.Пирсона;
  • - коэффициент детерминации;
  • - коэффициенты корреляции знаков - для оценки тесноты связи качественных признаков (непараметрические методы), Г. Фехнера, К. Спирмэна, М. Кэндэла.

Теснота связи при линейной зависимости измеряется с помощью линейного коэффициента корреляции, который рассчитывается по одной из формул:

Корреляционный анализ выполняет оценку адекватности регрессионной модели, но путем установления тесноты связи.

Оценка линейного коэффициента корреляции

Значимость линейного коэффициента корреляции проверяется на основе t-критерия Стьюдента. Для этого определяется фактическое значение критерия:

Вычисленное по формулезначение сравнивается с критическим, который получают по таблице Стьюдента с учетом принятого уровня значимости и числа степеней свободы н.

Коэффициент корреляции считается статистически значимым, если t расч превышает (t расч >).

Универсальным показателем тесноты связи является теоретическое корреляционное отношение:

где - общая дисперсия эмпирических значений y , характеризует вариацию результативного признака за счет всех факторов, включая х ;

Факторная дисперсия теоретических значений результативного признака, отражает влияние фактора х на вариацию у ;

Остаточная дисперсия эмпирических значений результативного признака, отражает влияние на вариацию у всех остальных факторов кроме х .

По правилу сложения дисперсий:

Оценка связи на основе теоретического корреляционного отношения (шкала Чеддока)

Для линейной зависимости теоретическое корреляционное отношение тождественно линейному коэффициенту корреляции, т.е. з = |r| .

Множественный коэффициент корреляции в случае зависимости результативного признака от двух факторов вычисляется по формуле:

где - парные коэффициенты корреляции между признаками.

Множественный коэффициент корреляции изменяется в пределах от 0 до 1 и по определению положителен: .

Значимость коэффициента множественной детерминации, а соответственно и адекватность всей модели и правильность выбора формы связи можно проверить с помощью критерия Фишера:

где R 2 - коэффициент множественной детерминации (R 2);

k - число факторных признаков, включенных в уравнение регрессии.

Связь считается существенной, еслиF расч > F табл - табличного значения F- критерия для заданного уровня значимостиби числе степеней свободы

н 1 = k , н 2 = n - k - 1.

Частные коэффициенты корреляции характеризуют степень тесноты связи результативного признака и фактора, при элиминировании его взаимосвязи с остальными факторами, включенными в анализ. В случае зависимости у от двух факторных признаков частные коэффициенты корреляции рассчитываются:

где r - парные коэффициенты корреляции между указанными в индексе переменными.

В первом случае исключено влияние факторного признака х 2 , во втором - х 1.

Для оценки сравнительной силы влияния факторов, по каждому фактору рассчитывают частные коэффициенты эластичности:

где - среднее значение соответствующего факторного признака;

Среднее значение результативного признака;

Коэффициент регрессии приi -м факторном признаке.

Данный коэффициент показывает, на сколько процентов следует ожидать изменения результативного показателя при изменении фактора на 1% и неизменном значении других факторов.

Частный коэффициент детерминации показывает, на сколько процентов вариация результативного признака объясняется вариацией i -го признака, входящего в множественное уравнение регрессии, рассчитывается по формуле:

где - парный коэффициент корреляции между результативным и i -м факторным признаком;

Соответствующий стандартизованный коэффициент уравнения множественной регрессии:

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

«Теория статистики», учебник под ред. Р.А. Шмойловой,

М.: Финансы и статистика, 2007. - 510 с.

«Практикум по теории статистики»., под ред. Р.А. Шмойловой,

М.: Финансы и статистика, 2004. - 456 с.

«Общая теория статистики» И.И. Елисеева, М.М. Юзбашев,

М.: Финансы и статистика, 2002. - 480 с.

«Теория статистики» В.М. Гусаров, М.: ЮНИТИ, 2001. - 247 с.

Лекция № 4

1. Сущность теории корреляции.

2. Вычисление коэффициента корреляции.

3. Оценка точности коэффициента корреляции.

4. Ранговая корреляция.

5. Получение эмпирических формул зависимости явлений.

6. Множественная корреляция.

7. Частная корреляция.

8. Компонентный и факторный анализы.

1 Сущность теории корреляции. Диалектический подход к изучению закономерностей природы и общества требует рассмотрения процессов и явлений в их сложных взаимосвязях.

Явления географической среды зависят от многих, часто неизвест­ных и меняющихся факторов. Выявить и изучить такие связи помогает теория корреляции - один из центральных разделов математической статистики, исключительно важный для исследователей.

Рисунок 4.1 – Функциональ­ная зависимость

Главные задачи корреляционного анализа - изучение формы, знака (плюс или минус) и тесноты связей.

Опишем кратко сущность теории корреляции.

Все связи делятся на функцио­нальные, рассматриваемые в курсах математического анализа, и корреля­ционные.

Функциональная зависимость предполагает однозначное соответ­ствие между величинами, когда численному значению одной величины, называемой аргументом, соответствует строго определенное значение другой величины - функции. При графическом изображении функцио­нальной связи в прямоугольной системе координат (х, у), если по оси абсцисс отложить значение одного признака, а по оси ординат - друго­го, все точки расположатся на одной линии (прямой или кривой). Функ­циональные (идеальные) связи встречаются в абстрактных математиче­ских обобщениях. Например, зависимость площади круга от радиуса (R) выразится на графике определенной кривой (рис. 1), построенной по формуле

В любой опытной науке экспериментатор имеет дело не с функ­циональными связями, а с корреляционными, для которых характерен известный разброс результатов эксперимента. Причина колеблемости заключается в том, что функция (изучаемое явление) зависит не только от одного или нескольких рассматриваемых факторов, но и от множест­ва других. Так, урожайность зерновых культур будет зависеть от ряда климатических, почвенных, экономических и других условий. Если связь урожайности с каким-либо из указанных факторов изобразить графически в системе координат (х, у), то получим разброс точек. Зако­номерности корреляционных связей и изучает теория корреляции.

В основе теории корреляции лежит представление о тесноте связи между изучаемыми явлениями (большая или малая связь). Для луч­шего уяснения редко встречаемого в географической литературе поня­тия «теснота связи» представим его в графической форме путем построения так называемого поля корреляции. Для этого результаты каждого наблюдения за элементами статистической совокупности по двум признакам отмечаем точкой в системе прямоугольных координат х и у. Таким путем, например, можно изобразить зависимость урожайно­сти зерновых по районам от гидротермического коэффициента. Чем больше разброс точек на поле корреляции, тем меньше теснота связи между изучаемыми явлениями. Рассмотрим два корреляционных поля (а и б, рис. 4.2). На поле а показана зависимость скорости роста оврагов (у) от площади водосбора (xi), на поле б - от угла наклона (хз). Меньший разброс точек первого корреляционного поля указывает на то, что скорость роста оврагов более тесно связана с площадями водосбо­ров, чем с углами наклона. Иначе можно сказать: изучаемое явление зависит от первого картометрического показателя в большей степени.



По общему направлению роя точек - слева вверх направо - можно заключить, что в обоих случаях связь положительная (со знаком плюс).


Рисунок 4.2 – Корреляционная положительная связь:
а) большая теснота связи б) малая теснота связи

Рисунок 4.3 – Корреляционная отрицательная связь

При отрицательной (минусовой) зависимости рой точек направлен слева вниз направо (рис. 4.3). По характеру размещения точек в рое, их близо­сти к оси можно визуально определить не только тесноту и знак связи, но и ее форму, которая подразделяется на прямолинейную и криволинейную.

Первая форма связи воспроиз­ведена на рис. 4.2 а и б. Она условна и является частным случаем связи криволинейной. Однако именно прямолинейная связь (при всей ее условности) рассматривается в географических и других исследо­ваниях наиболее часто из-за простоты математико-статистического аппарата ее оценки и возможности применения при изучении многофакторных связей и зависимостей.

Рисунок 4.4 – Криволинейная форма связи

Степень кривизны географических корреляционных связей во многом зависит от меридиональной протяженности изучаемых терри­торий. На рисунке 4.4 показана в схематизированном виде криволинейная зависимость среднегодовой температуры (t) от географической широты t(j) в глобальном масштабе - от южного полюса (ЮП) через экватор (Э) до северного полюса (СП). Чем меньше протяженность изучаемой территории с юга на север, тем больше оснований назвать ее прямолинейной.

Так, на восходящем отрезке АВ (южное полушарие) связь прямолинейная положительная, а на нисходящем отрезке CD (северное полушарие) - прямолинейная отрицательная. На приэкваториальном отрезке ВС связь сохраняется криволинейной.

Визуально-графический способ изучения тесноты и формы связи прост, нагляден, но недоста­точно точен. Математико-статистическая обработка результатов наблюдений позволяет определить чи­словые значения, характеризующие как форму, так и тесноту связей.

2 Вычисление коэффициента корреляции. Наиболее распространенным показателем тесноты прямолинейной связи двух количественных признаков считается коэффициент корре­ляции (r). Его абсолютное численное значение находится в пределах от О до 1. Чем теснее связь, тем больше абсолютное значение г.

Если r = 0, то связи нет, если он равен ±1, то связь функциональ­ная (точки расположатся строго по линии). Знак «плюс» (+) указывает на прямую (положительную) зависимость, «минус» – на обратную (отрицательную). Предельные значения коэффициента корреляции (r = + 1, 0 и - 1) в практике географических исследований не встречаются; обычно их числовые значения находятся между нулем и положительной или отрицательной единицей.

Рассмотрим наиболее распространенную схему вычисления, опирающуюся на предварительные расчеты средних арифметически, центральных отклонений и средних квадратических отклонений да каждого количественного признака. Предположим, необходимо найти тесноту связи между количеством осадков в июле (х) и урожайностью пшеницы (у). Эти данные вносятся в первые два столбца таблицы 1.

Схема вычисления коэффициента корреляции

– сумма по столбцу 5; n – число наблюдений; d x и d у – средние квадратические отклонения признаков х и у, вычисленные по формуле, при­веденной в лекции 2. В нашем примере связь хорошая.

Таблица 1

X У Х-Х У-У (х-х).(у-у) (Х-Х) 2 (У-У) 2
-50 -10
-50 -6
-10 -6
-1 -10
-10 -7
1 600
800 180 0 0 1560 8600 464

Затем вычисляем разности между конкретными значениями ис­ходных величин и их средними арифметическими. Результаты этих расчетов записываем в столбцы 3 и 4. Вычисление чисел в столбцах 5, б и 7 вполне понятно из надписей над соответствующими столбцами. Под каждым столбцом подсчитываем суммы. Коэффициент корреляции (г) вычисляем по формуле

Особо ценен 5-й столбец схемы, представляющий собой совокуп­ность произведений центральных отклонений и названный ковариаци­онным столбцом. Он позволяет проверить правильность определения знака и численного значения коэффициента корреляции по соотноше­нию сумм плюсовых и минусовых показателей членов ковариационного ряда. Чем больше разнятся суммы плюсов и минусов, тем теснее связь исходных показателей. Примерное равенство их свидетельствует о низ­кой связи. Знак коэффициента корреляции будет соответствовать знаку превышения одной суммы над другой.

Коэффициент корреляции, как и d, проще определяется без вы­числения отклонений от средней. Приведем схему такого вычисления по данным предыдущего примера. Схема проста, и для ее понимания достаточно надписей над столбцами таблицы 2.

3 Оценка точности коэффициента корреляции. Как и всякая другая выборочная математико-статистическая ха­рактеристика, коэффициент корреляции имеет свою ошибку репрезен­тативности, вычисляемую при больших выборках (n > 50) по формуле

Таким образом, точность вычисления коэффициента корреляции повышается с увеличением объема выборки; она велика также при большой тесноте связи (r близок к +1 или -1).

Приведем пример вычисления ошибки выборочного r.

Коэффици­ент корреляции между заболеваемостью дизентерией и одним из клима­тических факторов r = 0,82.

Показатель тесноты связи вычисляется по данным 64 пунктов. Тогда

Получив суммы по всем столбцам, вычисляем коэффициент корреляции по формуле

С точностью определения коэффициента корреляции тесно связан вопрос о реальности существования этой связи между рассматриваемы­ми признаками. При малом объеме выборки или малой тесноте связи часто ошибки, коэффициента корреляции оказываются настолько боль­шими и сопоставимыми с самим коэффициентом, что встает вопрос, не случайно ли его значение отличается от нуля и соответствует ли опре­деленный знак связи действительной ее направленности (плюсовой или минусовой?) Этот вопрос разрешается численным сравнением r

чаться от нуля случайно, и связь явлений не доказывается.

Проверим, существует ли связь между явлениями в нашем примере

связь недостоверна, то есть ее может и не быть.

4 Ранговая корреляция. В географических исследованиях при малых объемах выбора часто требуется обработать статистический материал быстро, не претендуя на высокую точность. Для этого можно ограничиться вычислением не коэффициента корреляции, а ранговой корреляции. Суть этого показателя состоит в том, что действительные значения количественных признаков заменяются их рангами, то есть последовательным рядом простых чисел, начиная с единицы в порядке возрастания признака Например, имеются данные об урожайности зерновых культур (у) и количестве осадков за два месяца перед колошением (х) по пяти районам (табл. 3, столбцы 1 и 2). Требуется вычислить тесноту связи. Заме­няем значения признаков их рангами Хр и Ур (столбцы 3 и 4), находим разности рангов (столбец 5), затем вычисляем квадраты этих разностей (столбец 6).

Ранговый коэффициент корреляции (r) вычисляется по формуле

Этот показатель тесноты связи рассчитывается главным образом то­гда, когда достаточно выяснить приближенную величину тесноты связи, и поэтому полученные результаты можно округлять лишь до десятого знака. Ранговый коэффициент корреляции представляет ценность еще и потому, что в распоряжение географа-исследователя часто поступают данные о многих природных и социально-экономических явлениях, заранее выраженные в рангах или баллах, а последние легко перевести в ранги.

5 Получение эмпирических формул зависимости явлений. Корреляционные методы позволяют определить не только тесноту связи явлений, но и эмпирические формулы зависимости, с помощью которых можно по одним признакам находить другие, часто недоступ­ные или мало доступные наблюдению.

При вычислении коэффициента корреляции обычно получают пять основных статистических показателей - , , d x , d у и r. Эти пока­затели дают возможность легко и быстро рассчитать параметры линей­ной зависимости у от х. Известно, что такая зависимость выражается формулой

Параметры а и b вычисляются по формулам

Например, необходимо построить эмпирическую формулу линей­ной зависимости урожайности (у) от процента гумуса в почве (х). При вычислении коэффициента корреляции были получены следующие

По найденной формуле можно представить примерную урожай­ность, зная процент гумуса на любом участке изучаемой территории. Так, если процент гумуса равен 10, то следует ожидать урожайность у = 7+0,6-х ==7+0,6-10 =13 ц/га.

Чем больше абсолютная величина r , тем более точной и надежной будет эмпирическая формула зависимости.

6 Множественная корреляция. При изучении многофакторных связей встает проблема определе­ния степени совместного влияния нескольких факторов на исследуемое явление.

Корреляционный анализ обычно начинается с вычисления парных коэффициентов корреляции (r xy), выражающих степень зависимости изучаемого явления (у) от какого-либо фактора (х). Например, опреде­ляются коэффициенты корреляции между урожайностью зерновых культур, с одной стороны, и рядом климатических, почвенных и эконо­мических факторов - с другой. Анализ полученных парных коэффициентов корреляции позволяет выявить наиболее важные факторы уро­жайности.

Следующая ступень корреляционного анализа заключается в том, что вычисляется коэффициент множественной корреляции (R), показы­вающий степень совместного влияния важнейших факторов (x 1 , x 2 , ... x n) на изучаемое явление (у), например, на урожайность зерновых куль­тур. Расчет для множества факторов представляет собой очень трудоем­кий процесс, часто требующий применения ЭВМ.

Рассмотрим простейший пример вычисления степени совокупного влияния на урожайность (у) только двух факторов: гидротермического коэффициента (x 1) и стоимости основных средств производства (х 2). Для этого вначале следует определить коэффициенты корреляции меж­ду тремя признаками (у, x 1 , и х 2) попарно. Оказалось, что

1) коэффициент корреляции между урожайностью зерновых культур (у) и гидротермическим коэффициентом (х 1) == 0,80;

2) коэффициент корреляции между урожайностью зерновых культур (у) и стоимостью основных средств производства (х 2) == 0,67;

3) коэффициент корреляции между самими факторами урожайности (гидротермическим коэффициентом и стоимостью основных средств производства) = 0,31.

Коэффициент множественной корреляции, выражающий зависи­мость изучаемого явления от совокупного влияния двух факторов, вы­числяется по формуле

В нашем примере

Совокупное влияние нескольких факторов на изучаемое явление больше, чем каждого из этих факторов в отдельности. Действительно, 0,92 больше как 0,80, так и 0,67.

Квадрат коэффициента множественной корреляции (R 2 = 0,84) означает, что колеблемость урожайности зерновых объясняется воздей­ствием учтенных факторов (гидротермические коэффициенты и стои­мость основных средств производства) на 84%. На долю остальных неучтенных факторов приходится всего 16%.

Линейную зависимость одной переменной (у) от двух других можно выразить уравнением

7 Частная корреляция. В предыдущем параграфе была рассмотрена схема вычисления я коэффициента множественной корреляции, выражающего степень совместного воздействия двух факторов (x 1 и х 2) на изучаемое явление у. Представляет интерес выявить, как тесно связан у с x 1 при постоянстве величине х 2 ; или у с х 2 при исключении влияния x 1 . Для этого следу вычислить коэффициент частной корреляции () по формуле:

, (13)

Где ryx 1 – коэффициент корреляции между первым фактором и изучаемым явлением (у), ryx 2 – коэффициент корреляции между вторым фактором (х 2) и изучаемым явлением (у), rx 1 x 2 – коэффициент корреляции между факторами (х 1) (х 2)

Пользу коэффициента частной корреляции покажем на приме изучения овражной эрозии. Известно, что скорость роста оврагов во многом зависит от энергии поверхностного стока, определяемой eё объемом и скоростью. Первая характеристика может быть выражена таким морфометрическим показателем, как площадь водосбора при вершине оврага, а скорость стока - углом наклона у вершины оврага. Были измерены скорости роста n-го числа оврагов (у), углы наклов (x 1) и площади водосбора (х 2), вычислены парные коэффициенты корреляции: =: - 0,2, = 0,8; == - 0,7. Отрицательное значение первого коэффициента корреляции выглядит парадоксальным. Действительно, трудно представить, чтобы скорости роста оврагов были тем больше, чем меньше угол наклона.

Рисунок 4.5 – Продольный профиль балки растущего оврага

Объяснить эту аномалию может обычно вогнутая форма продольного профиля балки, где растет овраг (рис. 4.5). Благодаря такой форме профиля наблюдается противоположность воздействия двух рассматриваемых факторов (x 1 , и х 2) на ско­рость роста оврагов (у): овраг, начинающий свое развитие в устье балка имеет малый угол наклона (a i), но зато наибольшую площадь водосбо­ра, обеспечивающую максимальный объем стекающей воды. По мера приближения вершины оврага к водоразделу угол наклона растет (a 1 , a 2 , a 3 , a 4 , a 5), но площадь водосбора уменьшается (S 1 – S 5). Преоб­ладающее воздействие площади водосбора (объема воды) над воздейст­вием угла наклона (ее скорости) и привело к отрицательному значению зависимости скорости роста оврагов от угла наклона. Разнонаправленность воздействия двух рассмотренных факторов объясняет также ми­нусовой знак их корреляционной взаимозависимости (== - 0.7). Для того, чтобы определить, насколько велика зависимость скорости роста оврагов от угла наклона при исключении влияния другого фактора (площади водосбора), необходимо вычислить коэффициент частной корреляции по формуле (13). Оказалось, что

Таким образом, только в результате корреляционных расчетов ста­ло возможным убедиться в прямой, а не обратной зависимости скорости роста оврагов от угла наклона, но только при условии исключения воз­действия площади водосбора.

8 Компонентный и факторный анализы. Из множества известных показателей тесноты корреляционных связей следует подчеркнуть особо важное значение коэффициента кор­реляции. Его отличает прежде всего повышенная информативность -способность оценивать не только тесноту, но и знак связи. Коэффици­енты корреляции лежат в основе вычисления более сложных показате­лей, характеризующих взаимосвязи не двух, а большего числа факторов.

Рассмотренный в настоящей лекции аппарат множественной и ча­стной корреляции правомерно считать начальным этапом изучения многофакторных корреляционных связей и зависимостей в географии. В условиях активной информатизации и компьютеризации человеческо­го общества наших дней перспектива развития этого направления ви­дится в использовании более сложного аппарата факторного и компо­нентного анализов. Их объединяет: наличие исключительно большого объема разнообразной информации, необходимость ее математической обработки с помощью ЭВМ, способность «сжимать» информацию, выделять главные и исключать второстепенные показатели, факторы и компоненты.

Факторный анализ предназначен для сведения множества исходныx количественных показателей к малому числу факторов. На их основе вычисляются интегральные показатели, несущие в себе информацию нового качества. В основе математических расчетов лежит создание матрицы, элементами которой выступают обычные коэффициенты корреляции или ковариации, отражающие попарные связи между всеми исходными количественными показателями.

Компонентный анализ (метод главных компонент) в отличие о факторного анализа опирается на массовые расчеты не корреляций, дисперсий, характеризующих колеблемость количественных признаке; л

В результате таких математических расчетов любое самое большое число исходных данных заменяется ограниченным числомглавных компонент, отличающихся наиболее высокой дисперсностью, а, следовательно, и информативностью.

Желающим глубже познакомиться с теорией, методикой и накопленным опытом использования факторного и компонентного анализов в географических исследованиях следует обратиться к работам С.Н. Сербенюка (1972), Г.Т. Максимова (1972), П.И. Рахлина (1973), В.Т. Жукова, С.Н. Сербенюка, B.C. Тикунова (1980), В.М. Жуковской (1964), B.M. Жуковской, И.М. Кузиной (1973), В.М. Жуковской, И.Б. Мучник (1976):

В заключение отметим, что при криволинейных зависимостях коэффициенту корреляции не всегда можно доверять, особенно когда изучаются природные явления на территориях значительной протяжен­ности с севера на юг. В этом случае лучше вычислять корреляционные отношения, которые нуждаются в большом объеме статистической со­вокупности и в предварительной группировке данных (Лукомский, 1961).

ВОПРОСЫ И ЗАДАНИЯ

1. Назовите главные задачи корреляционного анализа.

2. Опишите схему вычисления коэффициента корреляции.

3. Как вычисляется ошибка выборочного коэффициента корреляции?

4. Какова схема вычисления рангового коэффициента корреляции?

5. Опишите получение эмпирических формул зависимости для двух показателей. Каково их использование?

6. В чем сущность множественного коэффициента корреляции?

7. Каково назначение частного коэффициента корреляции?

8. Что такое компонентный анализ?

9. Дайте определение факторного анализа.