Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака , а на оси ординат - результативного. Каждое пересечение линий, проводимых через эти оси, обозначается точкой. При отсутствии тесных связей имеет место беспорядочное расположение точек на графике (рис. 11.1).  


Изобразим полученную зависимость графически точками координатной плоскости (рис. 3.1). Такое изображение статистической зависимости называется полем корреляции.  

Постройте поле корреляции и сформулируйте гипотезу о форме связи.  

При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он основан на поле корреляции. Основные типы кривых, используемые при количественной оценке связей, представлены на рис. 2.1.  

Поскольку не все точки поля корреляции лежат на линии регрессии , то всегда имеет место их разброс как обусловленный влиянием фактора х, т. е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений , обусловленная регрессией, будет больше остаточной суммы квадратов , то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результату. Это равносильно тому, что коэффициент детерминации г2 будет приближаться к единице.  

Соответственно для зависимости, изображенной на полях корреляции рис. 3,5 б) и в), гетероскедастичность остатков представлена на рис. 3.9 и 3.10.  

Если же величины независимы, то "поле корреляции" или па-  

Если поле корреляции может быть аппроксимировано прямой, которая называется линией регрессии , то приступают к вычислению коэффициента парной корреляции г. Его числовые значения заключены в интервале [-1, 1]. Если г равно 1 или -1, то существует функциональная прямая или обратная связь . Когда г близок к нулю, связь между явлениями отсутствует, а при г 0,7 связь считается существенной. Коэффициент корреляции рассчитывают по формуле  

После выделения названных выше групп железнодорожных хозяйств был использован еще один приближенный прием предварительного анализа однородности совокупности по каждой группе железнодорожных хозяйств - построение полей корреляции каждого из включенных в исследование факторов с себестоимостью перевозок. Основным признаком однородности или неоднородности выбранных совокупностей служило отсутствие или наличие разрывов и скачков в расположении точек на полях корреляции.  

Для изучения были предварительно выбраны путем профессионального логического анализа все возможные факторы, данные об изменении которых по предприятиям имеются в отчетности министерства. Такими факторами следует считать общий объем перевозок, среднюю производительность вагонов и локомотивов рабочего парка, грузонапряженность, фондоемкость единицы перевозок и производительность труда и др. (всего 11 факторов). Таким образом, по четырем группам предприятий было построено 44 поля корреляции.  

После определения указанных величин получается уравнение парной зависимости, графическое изображение которого в осях координат называется теоретической линией регрессии . Если на такое поле нанести все замеры, а не только теоретическую линию регрессии , то мы получим поле корреляции.  

Исходный материал систематизируем на поле корреляции и в корреляционной таблице. В нашем примере в качестве фактора выступает стоимость машин См, а в качестве функции - среднегодовая численность рабочих Р.  

В результате разбивки на интервалы вся плоскость, на которой нанесены замеры по обоим признакам к и у, называемая полем корреляции, представит собой клетки, причем каждый замер характеризуется не точными значениями своих координат, а лишь значениями интервала, в который он отнесен.  

На рис. 16 представлено поле корреляции, на котором по оси абсцисс даны интервалы для значений аргумента Сы, а по оси ординат - интервалы для значения функции Р. Построенное таким способом поле корреляции называется вторичным.  

Для выбора интервалов может быть построено также первичное поле корреляции. Все точки на этом поле проставлены с учетом значений их координат. По густоте расположения точек и намечаются интервалы.  

Наряду с построением поля корреляции, как указано выше, составляется корреляционная таблица, в которой производятся все вычисления, связанные с определением средних, построением эмпирической линии регрессии и исходных данных для определения параметров в системе нормальных уравнений.  

В табл. 36 весь материал распределен по интервалам. Используя его, строим вторичное поле корреляции, на которое наносим все значения переменных, и определяем средние значении (/, //,. .., уп по интервалам. Соединив между собой средние значения в каждом интервале отрезками прямых линий, получаем эмпирическую линию регрессии (см. рис. 16).  

Восстанавливая из центра каждого интервала перпендикуляр к оси абсцисс, откладываем на каждом из них соответствующие значения у но интервалам г/, = 1081, 1/2 = 1774 и т. д. Полученные точки соединяем между собой отрезками прямых. Полученная ломаная линия представляет собой эмпирическую линию регрессии для зависимости между стоимостью машин См и численностью рабочих Р. По аналогии с проведенными вычислениями мы можем построить корреляционные таблицы и поля корреляции для выявления зависимости между численностью рабочих Р, объемами работ О, количеством сборных бетонных и железобетонных конструкций /Иж.б.  
Рис. 18. Корреляционная таблица и вторичное поле корреляции зависимости численности рабочих и объема применения сборных железобетонных конструкций /info/5440">Уравнения парной регрессии и выведенной в дальнейшем множественной регрессии применимы в случае, если переменные изменяются в следующих пределах численность рабочих - от 850 до 7850 чел., стоимость машин - от 0,15 до 3,15 млн. руб., объем сборных конструкций - от 10 до 230 тыс. m и откладывают по вертикальной оси, в значения независимой - по горизонтальной. Поле корреляции используется при определении формы зависимости между переменными, График дает исследователю первое  

В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора Xj остатки е,- имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастнчность. Наличие гетероскедастич-ности можно наглядно видеть из поля корреляции (рис. 3.5).  

Другая типичная исследовательская задача - оценка взаимосвязи между явлениями - решается с помощью хорошо разработанного в математической статистике аппарата теории корреляции. Для этого необходимо иметь выборки по сравниваемым явлениям, показанным на картах разной тематики (например, Д и В). Значения а и Ь, берут в одних и тех же /-х точках, т.е. строго скоординированно, и затем строят график поля корреляции.  

Наглядным изображением корреляционной таблицы служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладываются значения X, по оси ординат – Y, а точками показываются сочетания X и Y. По расположению точек можно судить о наличии связи.

Использование графического метода.

Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.

Совокупность точек результативного и факторного признаков называется полем корреляции.

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Линейное уравнение регрессии имеет вид y = bx + a + ε

Здесь ε - случайная ошибка (отклонение, возмущение).

Причины существования случайной ошибки:

1. Невключение в регрессионную модель значимых объясняющих переменных;

2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.

3. Неправильное описание структуры модели;

4. Неправильная функциональная спецификация;

21. Корреляционно-регрессионный анализ.

Корреляционно-регрессионный анализ как общее понятие включает в себя измерение тесноты и направления связи и установление аналити­ческого выражения (формы) связи (регрессионный анализ).

Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака (У) от факторных (х1, х2, …, хk).

Уравнение регрессии, или статистическая модель связи социально-эко­номических явлений, выражается функцией:

Yx = f(х1, х2, …, хn),

где “n” – число факторов, включенных в модель;

Хi – факторы, влияющие на результат У.

Этапы корреляционно-регрессионного анализа:

Предварительный (априорный) анализ. Он дает неплохие результаты если проводится достаточно квалифицированным исследователем.

Сбор информации и ее первичная обработка.

Построение модели (уравнения регрессии). Как правило эту процедуру выполняют на ПК используя стандартные программы.

Оценка тесноты связей признаков, оценка уравнения регрессии и анализ модели.

Прогнозирование развития анализируемой системы по уравнению регрессии.

На первом этапе формулируется задача исследования, определяется методика измерения показателей или сбора информации, определяется число факторов, исключаются дублирующие факторы или связанные в жестко-детерминированную систему.

На втором этапе анализируется объем единиц: совокупность должна быть достаточно большой по числу единиц и наблюдений (N>>50), число факторов “n” должно соответствовать количеству наблюдений “N”. Данные должны быть количественно и качественно однородны.

На третьем этапе определяется форма связи и тип аналитической функции (парабола, гипербола, прямая) и находятся ее параметры.

На четвертом этапе оценивается достоверность всех характеристик корреляционной связи и уравнения регрессии используя критерий достоверности Фишера или Стьюдента, производится экономико-технологический анализ параметров.

На пятом этапе осуществляется прогноз возможных значений результата по лучшим значениям факторных признаков, включенных в модель. Здесь выбираются наилучшие и наихудшие значения факторов и результата.

22. Виды уравнений регрессии.

Для количественного описания взаимосвязей между экономическими переменными в статистике используют методы регрессии и корреляции.

Регрессия - величина, выражающая зависимость среднего значения случайной величины у от значений случайной величины х.

Уравнение регрессии выражает среднюю величину одного признака как функцию другого.

Функция регрессии - это модель вида у = л», где у - зависимая переменная (результативный признак); х - независимая, или объясняющая, переменная (признак-фактор).

Линия регрессии - график функции у = f (x).

2 типа взаимосвязей между х и у:

1) может быть неизвестно, какая из двух переменных является независимой, а какая - зависимой, переменные равноправны, это взаимосвязь корреляционного типа;

2) если х и у неравноправны и одна из них рассматривается как объясняющая (независимая) переменная, а другая - как зависимая, то это взаимосвязь регрессионного типа.

Виды регрессий:

1) гиперболическая - регрессия равносторонней гиперболы: у = а + b / х + Е;

2) линейная - регрессия, применяемая в статистике в виде четкой экономической интерпретации ее параметров: у = а+b*х+Е;

3) логарифмически линейная - регрессия вида: In у = In а + b * In x + In E

4) множественная - регрессия между переменными у и х1 , х2 ...xm, т. е. модель вида: у = f(х1 , х2 ...xm)+E, где у - зависимая переменная (результативный признак), х1 , х2 ...xm - независимые, объясняющие переменные (признаки-факторы), Е- возмущение или стохастическая переменная, включающая влияние неучтенных факторов в модели;

5) нелинейная - регрессия, нелинейная относительно включенных в анализ объясняющих переменных, но линейная по оцениваемым параметрам; или регрессия, нелинейная по оцениваемым параметрам.

6) обратная - регрессия, приводимая к линейному виду, реализованная в стандартных пакетах прикладных программ вида: у = 1/a + b*х+Е;

    парная - регрессия между двумя переменными у и x, т. е, модель вида: у = f (x) + Е, где у -зависимая переменная (результативный признак), x – независимая, объясняющая переменная (признак - фактор), Е - возмущение, или стохастическая переменная, включающая влияние неучтенных факторов в модели.

    Ряды динамики и их виды

Динамический ряд всегда состоит из 2 элементов: 1) момент времени или временной период, по отношению к которому приводятся статистические данные, 2)статистического показателя, который называется уровнем динамического ряда.

В зависимости от содержания временного показателя, ряды динамики бывают моментные или интервальные

В зависимости от вида статистического показателя, динамические ряды подразделяются на ряды абсолютных, относительных и средних величин

Абсолютные показывают точные значения

Относительные показывают изменение удельных весов показателя в общей совокупности

Средние величины содержат об изменении во времени показателя, являющимся средним уровнем явления

    Показатели ряда динамики. Средний уровень ряда динамики.

Показатели: 1)средний уровень дин.ряда, 2)абс.приросты, цепные и базисные, ср.абс.прирост, 3)тымпы роста и прироста, цепные и базисные, ср.темп роста и прироста, 4)fmcjk.nystзначения 1% прироста

Средние показатели динамики

Обобщённые характеристики ряда динамики, с их помощью сравнивают интенсивность развития явления по отношению к разным объектам, например по странам, отраслям, предприятиям

Средний уровень в мом.времени уи. Методика расчета среднего уровня зависит от вида ряда(моментальный/интервальный)(с равными/разными интервалами). Если дан интервальныя ряд динамики абсолютных или средних вельчин с равными промежутками времени, то для расчета среднего уровня применяются формула для расчета средней простой. Если промежутки времени интервального ряда неравные, то средний уровень находят по средней арифметической взвешенной. Уср=сммУи*Ти/сммТи

25. Абсолютный прирост (дельта и) – это разность между двумя уровнями динамического ряда, которая пока­зывает, насколько данный уровень ряда превышает уровень, принятый за базу сравнения. Дельта и=Уи-У0

Дельта и=Уи-Уи-1

Абсолютное ускорение - разность между абсолютным приростом за данный период и абсолютным приростом за предыдущий период одинаковой дли­тельности: Дельта и с чертой=дельта и- дельта и-1. Абсолютное ускорение показывает, насколько увеличилась (уменьшилась) скорость изменения показателя. Показатель ускорения применяется для цепных абсолютных приростов. Отрицательная величина ускорения говорит о замедлении роста или об ускорении снижения уровней ряда.

    Показатели относительного изменения уровней ряда динамики.

Коэффициент роста (темп роста) - это отношение двух сравниваемых уровней, которое показывает, во сколько раз данный уровень превышает уровень базисного периода. Отражает интенсивность изменения уровней ряда динамики и показывает, во сколько раз увеличился уровень по сравнению с базисным, а в случае уменьшения - какую часть базисного уровня составляет сравниваемый уровень.

Формула расчета коэффициента роста: при сравнении с постоянной базой : K i .=y i /y 0 , при сравнении с переменной базой : K i .=y i /y i -1 .

Темп роста - это коэффициент роста, выраженный в процентах:

T р = К 100 %.

Темпы роста для любых рядов динамики являются интервальными показателями, т.е. характеризуют тот или иной промежуток (интервал) времени.

Темп прироста - относительная величина прироста, т. е. отношение абсолютного прироста к предыдущему или базисному уровню. Характеризует, на сколько процентов уровень данного периода больше (или меньше) базисного уровня.

Темп прироста - отношение абсолютного прироста к уровню, принятому за базу сравнения:

Тпр=Уи-У0/У0*100%

Темп прироста - разность между темпом роста (в процентах) и 100,

Теоретическая часть

Для различия направленности влияния одного признака на другой введены понятия положительной и отрицательной связи.

Если с увеличением (уменьшением) одного признака в основном увеличиваются (уменьшаются) значения другого, то такая корреляционная связь называется прямой или положительной.

Если с увеличением (уменьшением) одного признака в основном уменьшаются (увеличиваются) значения другого, то такая корреляционная связь называется обратной или отрицательной.

Корреляционные поля и их использование в предварительном анализе корреляционной связи

При постановке вопроса о корреляционной зависимости между двумя статистическими признаками Х и У проводят эксперимент с параллельной регистрацией их значений.

Пример -
Будем называть корреляционным полем зону разброса таким образом полученных точек на графике. Визуально анализируя корреляционное поле на рисунке 8, можно заметить, что оно как бы вытянуто вдоль какой-либо прямой линии. Такая картина характерна для так называемой линейной корреляционной взаимосвязи между признаками. При этом можно в общем предположить, что с увеличением конечной скорости разбега увеличивается и длина прыжка, и наоборот. Т.е. между рассматриваемыми признаками наблюдается прямая (положительная) взаимосвязь.

Наряду с этим примером из множества других возможных корреляционных полей можно выделить следующие (рис.9-11):

На рисунке 9 тоже просматривается линейная взаимосвязь, но с увеличением значений одного признака, уменьшаются значения другого, и наоборот, т.е. связь обратная или отрицательная. Можно предположить, что на рисунке 11 точки корреляционного поля разбросаны около какой-то кривой линии. В таком случае говорят, что между признаками существует криволинейная корреляционная связь.

В отношении корреляционного поля, изображенного на рисунке 10, нельзя сказать, что точки располагаются вдоль какой-то прямой или кривой линии, оно имеет сферическую форму. В этом случае говорят, что признаки Х и Y не зависят друг от друга.



Кроме этого по корреляционному полю можно примерно судить о тесноте корреляционной связи, если эта связь существует. Здесь говорят: чем меньше точки разбросаны около воображаемой усредненной линии, тем теснее корреляционная связь между рассматриваемыми признаками.

Визуальный анализ корреляционных полей помогает разобраться в сущности корреляционной взаимосвязи, позволяет высказать предположение о наличии, направленности и тесноте связи. Но точно сказать, имеется связь между признаками или нет, линейная связь или криволинейная, тесная связь (достоверная) или слабая (недостоверная), с помощью этого метода нельзя. Наиболее точным методом выявления и оценки линейной взаимосвязи между признаками является метод определения различных корреляционных показателей по статистическим данным.

3. Коэффициенты корреляции и их свойства

Часто для определения достоверности взаимосвязи между двумя признаками(Х, У) используютнепараметрический (ранговый) коэффициент корреляции Спирмена и параметрический коэффициент корреляции Пирсона . Величина этих показателей корреляционной связи определяется по следующим формулам:

(1)

Где: dx - ранги статистических данных признака х;

dy - ранги статистических данных признака у.

(2)

Где: - статистические данные признака х,

Статистические данные признака у.

Эти коэффициенты обладают такими мощными признаками:

1. На основании коэффициентов корреляции можно судить только о прямолинейной корреляционной взаимосвязи между признаками. О криволинейной связи с их помощью ничего сказать нельзя.
2. Значения коэффициентов корреляции есть безразмерная величина, которая не может быть меньше -1 и больше +1, т.е.
3.
4. Если значения коэффициентов корреляции равны нулю, т.е. = 0 или = 0, то связь между признаками х, у отсутствует.
5. Если значения коэффициентов корреляции отрицательные, т.е. < 0 или < 0, то связь между признаками Х и Y обратная .
6. Если значения коэффициентов корреляции положительные, т.е. > 0 или y> 0 , то связь между признаками Х и Y прямая (положительная).
7. Если коэффициенты корреляции принимают значения +1 или -1, т.е. = ± 1 или = ± 1, то связь между признаками Х и Y линейная (функциональная) .
8. Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Эта достоверность еще зависит от числа степеней свободы.

Практическая часть.

Определите коэффициент корреляции между температурой тела и частотой пульса и дайте оценку выявленной взаимосвязи.

Строим корреляционное поле для основного и попутного компонентов. По оси абсцисс откладываем содержание основного компонента, в данном случае Hg, а по оси ординат – содержание попутного, т.е. Sn.

Для предварительной оценки силы связи на корреляционном поле необходимо провести линии, соответствующие медианам значений основного и попутного компонентов, разделив ими поле на четыре квадрата.

Количественной мерой силы связи является коэффициент корреляции. Его приближённую оценку рассчитывают по формуле:

где n1 суммарное количество точек в I и III, n2 = суммарное количество точек в II и IV.

I = 4 II = 8 III = 7 IV = 5

Далее используя вычисленные компьютером исходные данные (Хср, Yср, дисперсии Dx, Dy, и их ковариацию cov(x,y)) вычисляем значение коэффициента корреляции r и параметры уравнений линейной регрессии попутного компонента по основному и основного компонента по попутному.

Вычисляем по следующим формулам:

Исходные данные:

cov (x, y) = 163,86

r = cov(x, y)/√Dx * Dy = 163,86/√157,27* 645,61= 0,51

b = cov(x, y)/Dx = 163,86/157,27= 1,04

a = Yср – b * Xср = 153,13– (-0.08) * 36,75= 150.19

d = cov(x, y)/ Dy = 163,86/645,61= 0.25

c = Хср – d * Yср = 36,75– (0.25) * 153,13= -1.5

y =150.19+1.04x x = -1.5+0.25y

Строим линии регрессии на корреляционном поле.

Этап 7. Проверка гипотезы о наличии корреляционной связи

Проверка гипотезы о наличии корреляционной связи основана на том, что для двумерной нормально распределённой случайной величины X, Y при отсутствии корреляции между х и y, коэффициент корреляции равен «0». Для проверки гипотезы об отсутствии корреляционной связи необходимо вычислить значение критерия:

t = r * √(N – 2)/√(1 – r2) = 0,51* √(24-2)/√(1 – (0,51) 2) = 2.65

Для наших значений t = 2.65

Табличное значение ttab = 2.02

Так как вычисленное значение t превышает табличное значение, то гипотеза об отсутствии корреляционной связи отвергается. Связь присутствует.

Этап 8. Построение линий эмпирической регрессии. Вычисление корреляционного отношения

Выборочные данные группируются в классы по значениям содержаний основного компонента, в данном случае Hg. Для этого весь интервал значений от минимального содержания основного полезного компонента до максимального содержания делится на 6 интервалов. Для каждого интервала:

    Определяется количество значений, попавших в этот интервал n(i)

    Считается количество значений содержаний попутного компонента соответствующих значениям основного(y(I,ср)) и делится это количество на n(i)

Таблица 3

Граница интервалов

На корреляционном поле строим линию эмпирической регрессии.

dобщ = √Dy = 25,4

dусл = /N = 66,14

Величина корреляционного отношения попутного компонента по основному r рассчитывается по формуле:

r = dусл/ dобщ = 66,14/25,4 = 2,6