В современных исследованиях по проблемам педагогики широко используются методы математической обработки данных. К методам обработки количественных данных относятся статистические приемы подведения итогов исследования, выявления определенных связей между ними, проверки достоверности выдвинутой гипотезы.

Математическая обработка результатов исследования обеспечивает их доказательность, репрезентативность. В сочетании с качественными показателями количественная обработка данных значительно повышает объективность исследования. Статистическая обработка результатов, регистрирующая изучение отдельных явлений позволяет сделать обобщения и выводы относительно всей совокупности изучаемых явлений. Важной особенностью использования статистических методов в педагогических исследованиях состоит в том, что это позволяет применять количественное изучение даже там, где невозможно определить сами свойства изучаемых объектов. Например, невозможно прямо измерить уровень развития нравственных качеств обучаемых, степень эффективности конкретного метода обучения и пр. Но, регистрируя соответствующие события, поступки, проявления, можно получить определенные качественные характеристики всех этих признаков, определить возможные закономерности их проявления, подтвердить правильность высказанных гипотез.

В статистике проверка гипотез осуществляется с помощью критериев статической оценки различий. Статистический критерий – это решающее правило, обеспечивающее надежное поведение, т.е. принятие истинной и отклонение ложной гипотезы с высокой вероятностью (Г.В.Суходольский). Статистические критерии обозначают также метод расчета определенного числа и само это число.

Статистические критерии, применяемые в педагогике, делятся на параметрические и непараметрические. К параметрическим относятся критерии, включающие в формулу расчета параметры распределения, т.е. среднее и дисперсии (критерии Стьюдента, Фишера, Хи-квадрат). К непараметрическим относят критерии, основанные на оперировании частотами или рангами и не включающие в формулу расчета параметров распределения (критерии знаков, Колмогорова-Смирнова, Уилкоксона, Манна-Уитни). Обе группы критериев имеют свои преимущества и недостатки. Сравнительная характеристика возможностей и ограничений параметрических и непараметрических критериев дана в следующей таблице.



Параметрические критерии Непараметрические критерии
Позволяют прямо оценить различия в средних, полученных в двух выборках (критерий Стьюдента) Позволяют оценить лишь средние тенденции (напр., ответить на вопрос, чаще ли в выборке А встречаются более высокие, а в выборке Б – более низкие значения признака (критерии Q,U и др.)
Позволяют прямо оценить различия в дисперсиях (критерий Фишера) Позволяют оценить лишь различия в диапазонах вариативности признака
Позволяют выявить тенденции изменения признака при переходе от условия к условию (дисперсионный однофакторный анализ), но лишь при условии нормального распределения признака Позволяют выявить тенденции изменения признака при переходе от условия к условию при любом распределении признака (критерии тенденций L и S)
Позволяют оценить взаимодействие двух и более факторов в их влиянии на изменения признака (двухфакторный дисперсионный анализ) Эта возможность отсутствует
Экспериментальные данные должны отвечать двум, а иногда трем условиям: а) значения признака измерены по интервальной шкале; б)распределение признака является нормальным; в)в дисперсионном анализе должно соблюдаться требование равенства дисперсий в ячейках комплекса Экспериментальные данные могут не отвечать ни одному из условий: а) значения признака могут быть представлены в любой шкале, начиная от шкалы наименований; б)распределение признака может быть любым и совпадение его с каким-либо теоретическим законом распределения необязательно и не нуждается в проверке; в)требование равенства дисперсий отсутствует
При выполнении указанных условий параметрические критерии являются более мощными по сравнению с непараметрическими критериями При несоблюдении указанных условий непараметрические критерии более надежны, т.к. они менее чувствительны к «засорениям»
Математические расчеты довольно сложны Математические расчеты большей частью просты и занимают мало времени

Параметрические методы

Критерий Стьюдента

Для сравнения выборочных средних величин, принадлежащих к двум совокупностям данных, и для решения вопроса о том, отличаются ли средние значения статистически достоверно друг от друга в психолого-педагогических экспериментах часто используют t -критерий Стьюдента, расчетное значение которого определяется по формуле:

,

где ‑ среднее выборочное значение переменной по одной выборке данных; ‑среднее выборочное значение по другой выборке данных; m 1 и m 2 ‑ интегрированные показатели отклонений частных значений из двух выборок от соответствующих их средних величин.

Если t расч больше или равно табличному, то делают вывод о том, что сравниваемые средние значения из двух выборок действительно статистически достоверно различаются с вероятностью допустимой ошибки.

Такая методика применяется тогда, когда необходимо установить, удался или не удался эксперимент, оказал или не оказал он влияние на уровень того качества, для изменения которого он предназначался.

Если t расчетное меньше t табличного, то в этом случае нет убедительных оснований для того, что эксперимент удался, даже если сами средние величины в начале и в конце эксперимента по своим абсолютным значениям различны.

Критерий φ*- угловое преобразование Фишера

Данный метод описан во многих руководствах (Плохинский Н.А., 1970; Гублер Е.В., 1978; Ивантер Э.В., Коросов А.В., 1992 и др.) Настоящее описание опирается на тот вариант метода, который был разработан и изложен Е.В. Гублером.

Критерий Фишера предназначен для сопоставления двух выборок по частоте встречаемости интересующего исследователя эффекта. Критерий оценивает достоверность различий между процентными долями двух выборок, в которых зарегистрирован интересующий исследователя эффект.

Суть углового преобразования Фишера состоит в переводе процентных долей в величины центрального угла, который измеряется в радианах. Большей процентной доле будет соответствовать больший угол φ, а меньшей доле - меньший угол, но соотношения здесь не линейные:

φ = 2·arcsin(),

где - процентная доля, выраженная в долях единицы.

При увеличении расхождения между углами φ 1 и φ 2 и увеличения численности выборок значение критерия возрастает. Чем больше величина φ*, тем более вероятно, что различия достоверны.

Критерий t-Стьюдента для независимых и
зависимых выборок.
Критерий F-Фишера.
Критерий U-Манна-Уитни.
Критерий T-Вилкоксона и др.

Статистические критерии – это
ПРАВИЛО, обеспечивающее принятие
истинной и отклонение ложной гипотезы с
высокой вероятностью.
Статистические критерии – это МЕТОД
расчета определенного числа.
Статистические критерии – это ЧИСЛО.

Параметрические критерии – это
критерии, включающие в формулу расчета
параметры распределения (среднее и
дисперсии).
Непараметрические критерии – это
критерии, не включающие в формулу
расчета параметров распределения и
основанные на оперировании частотами
или рангами.

Позволяют прямо оценить различия в средних,
полученных в двух выборках (t-критерий
Стьюдента)
Позволяют прямо оценить различия в дисперсиях
(критерий F-Фишера)
Позволяют выявить тенденции изменения признака
при переходе от условия к условию (дисперсионный
однофакторный анализ)
Позволяют оценить взаимодействие двух и более
факторов и их влияние на изменение признака
(двухфакторный дисперсионный анализ)

Возможности и ограничения параметрических критериев

Экспериментальные данные должны отвечать двум, а
иногда трем, условиям:
а) значения признака измерены по интервальной
шкале;
б) распределение признака является нормальным;
в) в дисперсионном анализе должно соблюдаться
требование равенства дисперсий в ячейке комплекса.
Если перечисленные условия выполняются, то
параметрические критерии оказываются более
мощными, чем непараметрические.

Позволяют оценить лишь средние тенденции, например,
ответить на вопрос, чаще ли в выборке А встречаются
более высокие, а в выборке Б – более низкие значения
признака (критерии Розенбаума, Манна-Уитни,
угловое преобразование Фишера и др.).
Позволяют оценить лишь различия в диапазонах
вариативности признака (критерий угловое
преобразование Фишера).
Позволяют выявить тенденции изменения признака при
переходе от условия к условию при любом
распределении признака (критерии тенденций
Пейджа, Джонкира).

Возможности и ограничения непараметрических критериев

Отсутствует возможность оценить взаимодействие
двух и более факторов.
Экспериментальные данные могут НЕ ОТВЕЧАТЬ
ни одному из условий параметрической статистики:
а) значения признака могут быть представлены в
любой шкале, начиная от шкалы наименований;
б) распределение признака может быть любым и
совпадение его с каким-либо теоретическим законом
распределения необязательно и не нуждается в
проверке;
в) требование равенства дисперсий отсутствует.

Статистический критерий имеет эмпирическое и
критическое значение.
Эмпирическое значение критерия – это число, полученное
по правилу расчета критерия.
Критическое значение критерия – это число, которое
определено для данного критерия при заданных переменных
(например, количества человек в выборке), выделяющее
зону значимости и незначимости для признака. См.
Таблицы критических значений критерия.
По соотношению эмпирического и критического значений
критерия выявляется уровень статистической значимости и
делается вывод о том, подтверждается или опровергается
нулевая гипотеза.

Правило принятия статистического вывода

1) на основе полученных экспериментальных
данных вычислить эмпирическое значение
критерия Кэмп
2) по соответствующим критерию таблицам
найти критические значения К1кр и К2кр, которые
отвечают уровням значимости в 5% и 1%
3) записать критическое значение в виде:
К1кр для p ≤ 0 05 и К2кр для p ≤ 0 01

10. 4) расположить эмпирическое значение критерия Кэмп и критические значения К1кр и К2кр на оси значимости (ось абсцисс Ох

декартовой системы координат, на
которой выделено три зоны: левая (незначимости),
средняя (неопределенности, р ≤ 0,05), правая
(значимости, р ≤ 0,01)

11. Правило принятия статистического вывода

5) сформулировать принятие решения:
если Кэмп находится в зоне незначимости, то
принимается гипотеза Н0 об отсутствии различий;
если Кэмп находится в зоне неопределенности, то
есть вероятность принятия ложного решения
(необходимо увеличить выборку или воспользоваться
другим критерием);
если Кэмп находится в зоне значимости, то гипотеза
об отсутствии различий Н0 отклоняется и
принимается гипотеза Н1 о наличии различий

12. Правило признания значимости различий

В большинстве случаев для признания различий
значимыми ЭМПИРИЧЕСКОЕ (полученное)
ЗНАЧЕНИЕ КРИТЕРИЯ должно ПРЕВЫШАТЬ
КРИТИЧЕСКОЕ (табличное) в соответствии с
числом степеней свободы для двух независимых
выборок df = (n1 + n2) – 2, для двух зависимых
выборок df = (n1 + n2) – 1 или объемом выборки
(n).
Исключение: критерий U-Манна-Уитни, критерий
G-знаков, критерий T-Вилкоксона, в которых нужно
придерживаться противоположного правила.

13. Зависимые и независимые выборки

Зависимые выборки – это те выборки, в
которых каждому респонденту одной выборки
поставлен в соответствие по определенному
признаку респондент другой выборки.
Независимые выборки – это те выборки, в
которых вероятность отбора любого
респондента одной выборки не зависит от
отбора любого из респондентов другой
выборки.

14. Выбор критерия для сравнения двух выборок

Соответствие
распределений
нормальному закону
(параметрический)
Несоответствие
распределения(й)
нормальному закону
(непараметрический)
Независимые
выборки
t – критерий
Стьюдента
для
независимых
выборок
U-критерий
Манна-Уитни;
Зависимые
выборки
t – критерий
Стьюдента для
зависимых
выборок
Критерий
серий
Критерий знаков
Т-критерий
Вилкоксона;

15. Критерий t-Стьюдента для независимых выборок


генеральных совокупностей из которых извлечены
независимые выборки, отличаются друг от друга.
Исходные предположения:
1.
Одна выборка извлекается из одной генеральной
совокупности, другая – из другой (значения
измеренных признаков гипотетически не должны
коррелировать между собой).
2.
В обеих выборках распределение приблизительно
соответствует нормальному закону.
3.
Дисперсии признаков в двух выборках примерно
одинаковы.

16. Критерий t-Стьюдента для независимых выборок

Структура исходных данных: изучаемый
признак(и) измерен у респондентов, каждый
из которых принадлежит к одной из
сравниваемых выборок.
Ограничения:
1. Распределения существенно не отличаются
от нормального закона в обеих выборках.
2. При разной численности выборок дисперсии
статистически достоверно не различаются
(проверяется по критерию F-Фишера или по
критерию Ливена).

17. Формула для подсчетов

где,
– среднее значение первой выборки
– среднее значение второй выборки
стандартное отклонение по первой выборке
– стандартное отклонение по второй выборке

18. Критерий t-Стьюдента для зависимых выборок

Проверяет гипотезу о том, что средние значения двух
генеральных совокупностей, их которых извлечены
сравниваемые зависимые выборки, отличаются друг от
друга.
Исходные предположения:
1.
Каждому представителю одной выборки поставлен в
соответствие представитель другой выборки.
2.
Данные двух выборок положительно коррелируют.
3.
Распределение в обеих выборках соответствует
нормальному закону.
Структура исходных данных: имеется по два значения
изучаемого признака(ов).

19. Критерий F-Фишера

Применяется для проверки гипотезы о равенстве
дисперсий двух выборок. Его относят к критериям
рассеяния.
*Имеет смысл перед использованием критерия t-Стьюдента
предварительно проверить гипотезу о равенстве дисперсий.
Если она верна, то для сравнения средних можно
воспользоваться критерием t-Стьюдента (гипотезы о равенстве
средних значений в двух выборках).
Критерий Фишера основан на дополнительных
предположениях о независимости и нормальности
выборок данных. Перед его применением
рекомендуется выполнить проверку нормальности
распределения признака.

20. Критерий F-Фишера

В регрессионном анализе критерий Фишера
позволяет оценивать значимость линейных
регрессионных моделей.
В частности, он используется в шаговой
регрессии для проверки целесообразности
включения или исключения независимых
переменных (признаков) в регрессионную модель.
В дисперсионном анализе критерий Фишера
позволяет оценивать значимость факторов и их
взаимодействия.

21. U-критерий Манна-Уитни для независимых выборок

Показывает насколько совпадают (пересекаются) два ряда
значений измеренного признака (ов).
Условия для применения:
1.
Распределение хотя бы в одной выборке отличается от
нормального вида.
2.
Небольшой объем выборки (больше 100 человек –
используют параметрические критерии, меньше 10
человек – непараметрические, но результаты
считаются предварительными).
3.
Нет гомогенности дисперсий при сравнении средних
значений.

22. Т-критерий Вилкоксона для зависимых выборок

В основе лежит упорядочивание величин
разностей (сдвигов) значений признака в
каждой паре его измерений.
Идея критерия заключается в подсчете
вероятности получения минимальной из
положительных и отрицательных
разностей при условии, что распределение
положительных или отрицательных
разностей равновероятно и равно

23. Н-критерий Крускала-Уоллиса для 3 и более независимых выборок

Применяется для оценки различий по степени
выраженности анализируемого признака
одновременно между тремя, четырьмя и
более выборками.
Позволяет выявить степень изменения
признака в выборках, не указывая на
направление этих изменений.

24. Н-критерий Крускала-Уоллиса

Условия для применения:
1. Измерение должно быть проведено в шкале
порядка, интервалов или отношений.
2. Выборки должны быть независимыми.
3. Допускается разное число респондентов в
сопоставляемых выборках.
4. При сопоставлении трех выборок допускается,
чтобы в одной из них было n=3, а в двух других
n=2. Но в этом случае различия могут быть
зафиксированы только на уровне средней
значимости.

25. Критерий Фишера φ* (фи) (Угловое преобразование Фишера)

Критерий φ (фи) предназначен для
сопоставления двух рядов выборочных
значений по частоте встречаемости какоголибо признака.
Этот критерий можно применять на любых
выборках – зависимых и независимых. А
также можно оценивать частоту
встречаемости признака и количественной,
и качественной переменной.

26. Критерий Фишера φ*

Условия для применения:
1. Измерение может быть проведено в любой
шкале.
2. Характеристики выборок могут быть любыми.
3. Нижняя граница – в одной из выборок может
быть только 2 наблюдения, при этом во второй
должно быть не менее 30 наблюдений. Верхняя
граница не определена.
4. При малых объемах выборок, нижние границы
выборок должны содержать не менее 5
наблюдений каждая.

27. Классификация задач и методов их решения

Задачи
Условия
Методы
1. Выявление
а) 2 выборки
Q - критерий Розенбаума;
различий в уровне испытуемых
U - критерий Манна-Уитни;
исследуемого
φ* - критерий (угловое
признака
преобразование Фишера)
б) 3 и более выбоS - критерий тенденций Джонкира;
рок испытуемых
Н - критерий Крускала-Уоллиса.
2. Оценка сдвига а) 2 замера на одной
Т - критерий Вилкоксона;
значений
и той же выборке
G - критерий знаков;
исследуемого
испытуемых
φ* - критерий (угловое
признака
преобразование Фишера).
б) 3 и более замеров
χл2 - критерий Фридмана;
на одной и той же
L - критерий тенденций Пейджа.
выборке испытуемых

28. Классификация задач и методов их решения

Задачи
3. Выявление
различий в
распределении
4.Выявление
степени
согласованности
изменений
Условия
Методы
а) при сопоставлении
эмпирического
признака распределе
ния с теоретическим
χ2 - критерий Пирсона;

m - биномиальный критерий
б) при сопоставлении
двух эмпирических
распределений
χ2 - критерий Пирсона;
λ - критерий КолмогороваСмирнова;
φ* - критерий (угловое
преобразование Фишера).
rs - коэффициент ранговой
корреляции Спирмена.
rs - коэффициент ранговой
корреляции Спирмена
а) двух признаков
б) двух иерархий или
профилей

29. Классификация задач и методов их решения

Задачи
Условия
5. Анализ
а) под влиянием
изменений
одного фактора
признака под
влиянием
контролируемых
условий
б) под влиянием
двух факторов
одновременно
Методы
S - критерий тенденций
Джонкира;
L - критерий тенденций Пейджа;
однофакторный дисперсионный
анализ Фишера.
Двухфакторный дисперсионный
анализ Фишера.

Все параметрические методы статистики работают с интервальной шкалой, в отличие от непараметрических методов, ориентированных прежде всего на первые две шкалы. Поясним отличия этих методов.

При рассмотрении большинства статистических методов предполагается, что наблюдения, о которых идет речь, выражены в интервальной шкале и являются реализациями случайной величины, распределение которой принадлежит некоторому параметрическому семейству распределений. Например, случайная величина имеет нормальное, или пуассоновское, или другое распределение. То есть, мы предполагаем, что известна форма распределения, например, мы можем предполагать нормальную N (μ, δ ) модель, но с неизвестными параметрами μ и δ . Методы оценивания и проверки гипотез позволяют делать выводы о неизвестных параметрах, при этом ценность любых заключений до некоторой степени должна зависеть от адекватности исходного предположения о параметрическом семействе, то есть о форме распределения. Однако существуют случайные величины, которые не подчиняются одной из распространенных форм распределения. Следовательно, к ним нельзя применить те математические методы, которые разработаны для параметрических распределений. Поэтому для таких признаков разработаны специальные математические модели, которые получили название непараметрических или свободных от распределения.

Таким образом, можно выделить две группы методов статистики: параметрические и непараметрические.

Преимущество параметрических методов состоит в том, что для них существует хорошо разработанный математический аппарат. Однако применение этих методов, кроме прочего, предполагает большой объем выборки. Параметрические методы используют для количественных признаков.

Для анализа номинальных и ранговых переменных используются только непараметрические методы, которые не требуют предварительных предположений относительно вида исходного распределения. В этом их достоинство. Но есть и недостаток – снижение т.н. мощности (чувствительности к различиям объектов). Поясним это.

Напомним, что прежде чем приступить к анализу результатов эксперимента, исследователь выдвигает две взаимоисключающие гипотезы. Одна из них - статистическая гипотеза, которую исследователь обычно предполагает отклонить (т.н. нулевая гипотеза Н 0 : например, изучаемые сорта не отличаются по урожайности). Альтернативная гипотеза (Н 1 ) фактически отрицает нулевую гипотезу. В альтернативной гипотезе обычно содержатся выдвигаемые исследователем предположения (есть отличия).

Выделяют два типа статистических ошибок анализа. Ошибка первого рода (ошибка α – типа): отклоняется нулевая гипотеза, которая в действительности верна. Ошибка второго рода (ошибка β – типа): принимаем нулевую гипотезу, которая в действительности ложная.

Мощностью или чувствительностью статистического критерия (метода) называется вероятность того, что в результате его применения будет принято правильное решение (Н 1 ) при действительно ложной нулевой гипотезе. Мощность критерия зависит от объема выборки, уровня значимости, направленности нулевой и альтернативной гипотез, надежности экспериментальных данных, приборов и от самого статистического метода. При равных условиях параметрические методы более мощные, чем непараметрические. Но мощность непараметрических методов возрастает с увеличением объема выборки.

Каждому типу шкалы соответствует своя статистическая техника. Для номинальных шкал часто используется критерий χ 2 (хи-квадрат). Для порядковых шкал – ранговые статистики. Для интервальных шкал – весь арсенал статистических критериев.

Алгоритмы и примеры вычисления непараметрических критериев.

Статистические шкалы

Статистическая обработка данных исследования

Статистические данные применяются при обработке материалов психологических исследований для того, чтобы извлечь из тех количественных данных, которые получены в эксперименте, возможно больше полезной информации.

Применение тех или иных статистических методов определяется тем, к какой статистической шкале относится полученный материал.

Шкала наименований. К этой шкале относятся материалы, в которых изучаемые объекты отличаются друг от друга по их качеству, а порядок не важен. Например, распределение участников конференции. При статистической обработке таких материалов нужно считаться с тем, каким числом единиц представлен каждый объект.

Шкала порядка. Порядок следования объектов находится в центре внимания. К этой шкале в статистике относятся такие исследовательские материалы, в которых рассмотрению подлежат объекты, принадлежащие к одному или нескольким классам, но отличающиеся при сравнении одного с другим: больше – меньше, выше – ниже и т.п.

Проще всего показать типические особенности шкалы порядка, если обратиться к итогам любых спортивных соревнований. В них последовательно перечисляются участники, занявшие соответственно первое, второе, третье и прочие

по порядку места, а сведения о фактических достижениях спортсменов отходят на второй план, или отсутствуют.

Шкала интервалов. К ней относятся такие материалы, в которых дана количественная оценка изучаемого объекта в фиксированных единицах. Материалы, соответствующие шкале интервалов, должны иметь единицу измерения, которая была ба при всех повторных измерениях тождественной самой себе.

Шкала отношений. К этой шкале относятся материалы, в которых учитывается не только число фиксированных единиц, как в шкале интервалов, но и отношения полученных суммарных итогов между собой. Чтобы работать с такими отношениями, нужно иметь некую абсолютную точку, от которой и ведется отсчет.

Если данные, которыми располагает исследователь, при их внимательном рассмотрении лишь в незначительной степени расходятся с кривой нормального распределения Гаусса, то это дает право исследователю применять в статистической обработке параметрические методы, исходные положения которых основываются на нормальной кривой распределения Гаусса. Нормальное распределение называют параметрическим потому, что для построения и анализа кривой Гаусса достаточно иметь всего два параметра: среднее арифметическое, значение которого должно соответствовать высоте перпендикуляра, восстановленного в центре кривой, и так называемое среднее квадратическое, или стандартное, отклонение – величины, характеризующей размах колебаний данной кривой.

При невозможности применить параметрические методы, надлежит обратиться к непараметрическим.

Рассмотренная выше общая стратегия оценки статистических гипотез в первую очередь определяет применение так называемых параметрических методов математической статистики.

Параметрические методы основаны на некоторых, как правило, вполне вероятных предположениях о характере распределения случайной величины. Обычно параметрические методы, используемые в анализе экспериментальных данных, основаны на предположении нормальности распределения этих данных. Следствием такого предположения является необходимость оценки исследуемых параметров распределения. Так, в случае рассматриваемого далее t -теста Стьюдента такими оцениваемыми параметрами являются математическое ожидание и дисперсия. В ряде случаев делаются дополнительные предположения по поводу того, как параметры, характеризующие распределение случайной величины в разных выборках, соотносятся между собой. Так, в тесте Стьюдента, который часто используют для сравнения средних значений (математического ожидания) двух рядов данных на предмет их однородности или неоднородности, дополнительно делается предположение об однородности дисперсий распределения случайных величин в двух генеральных совокупностях, из которых эти данные были извлечены.

Достоинством методов параметрического анализа данных является тот факт, что они обладают достаточно высокой мощностью. Под мощностью теста имеют в виду его способность избегать ошибки второго рода, или β-ошибки. Чем меньше оказывается β-ошибка, тем выше мощность теста. Иными словами, мощность теста = 1 – β.

Высокая мощность параметрических тестов, или критериев, обусловлена тем, что данные методы требуют, чтобы имеющиеся данные были описаны в метрической шкале . Как известно, к метрическим шкалам относят интервальную шкалу и шкалу отношений, которую иногда еще называют абсолютной шкалой. Интервальная шкала позволяет исследователю выяснить не только отношения равенства или неравенства элементов выборки (как это позволяет сделать шкала наименований ) и не только отношения порядка (как это позволяет сделать шкала порядка ), но также и оценивать эквивалентность интервалов. Абсолютная шкала вдобавок к этому позволяет оценивать эквивалентность отношений между элементами множества, полученными в ходе измерения. Именно поэтому метрические шкалы относят к сильным измерительным шкалам. Благодаря этой силе параметрические методы позволяют более точно выразить различия в распределении случайной величины при условии истинности пулевых или альтернативных гипотез.

Следует также отметить, что в целом параметрические методы статистики более разработаны в теории математической статистики и поэтому применяются значительно шире. Практически любой экспериментальный результат может быть оценен с помощью какого-либо из этих методов. Именно такие методы и рассматриваются преимущественно в учебниках и руководствах по статистическому анализу данных.

В то же время трудности, связанные с использованием методов параметрического анализа в статистике, состоят в том, что в ряде случаев априорные предположения о характере распределения исследуемых случайных величин могут оказаться неверными. И эти случаи весьма характерны именно для психологических исследований в тех или иных ситуациях.

Так, если сравнивать две выборки с помощью t -теста Стьюдента, можно обнаружить, что распределение наших данных отличается от нормального, а дисперсии в двух выборках значительно разнятся. В этом случае использование параметрического теста Стьюдента может до некоторой степени исказить выводы, которые хочет сделать исследователь. Такая опасность увеличивается, если значения вычисленной статистики оказываются близкими к граничным значениям квантилей, которые используются для принятия или отвержения гипотез. В большинстве случаев, однако, как, например, в случае использования t -теста, некоторые отклонения от теоретически заданных предположений оказываются некритичными для надежного статистического вывода. В других случаях такие отклонения могут создавать серьезную угрозу такому выводу. Тогда исследователи могут разрабатывать специальные процедуры, которые могут скорректировать процедуру принятия решения по поводу истинности статистических гипотез. Назначение этих процедур состоит в том, чтобы обойти или смягчить слишком жесткие требования параметрических моделей используемой статистики.

Один из вариантов таких действий исследователя, когда он обнаруживает, что полученные им данные по своим параметрам отличаются от того, что задано в структурной модели используемого параметрического теста, может состоять в том, чтобы попытаться преобразовать эти данные к нужному виду. Например, как отмечалось в гл. 1, измеряя время реакции, можно избежать высокого значения асимметрии его распределения, если использовать для анализа логарифмы получаемых значений, а не сами значения времени реакции.

Другой вариант действий состоит в отказе от использования каких-либо априорно заданных предположений о характере распределения случайной величины в генеральной совокупности. А это означает отказ от параметрических методов математической статистики в пользу непараметрических.

Непараметрическими называют методы математической статистики, при которых не выдвигаются какие-либо априорные предположения о характере распределения исследуемых данных и не предполагается каких-либо допущений о соотношении параметров распределения анализируемых величин. В этом заключается главное достоинство этих методов.

В полной мере преимущество непараметрической статистики раскрывается тогда, когда результаты, полученные в эксперименте, оказываются представленными в более слабой неметрической шкале , представляя собой результаты ранжирования. Такая шкала называется шкалой порядка. Конечно, в ряде случаев исследователь может преобразовать эти данные к более сильной интервальной шкале, используя процедуры нормализации данных, но, как правило, оптимальным вариантом в этой ситуации является применение именно непараметрических тестов, специально созданных для статистического анализа.

Как правило, тесты непараметрической статистики предполагают оценивание имеющихся соотношений ранговых сумм в двух или более выборках, и на основании этого формулируется вывод о соотношении этих выборок. Примерами таких тестов являются критерий знаков, критерий знаковых рангов Уилкоксона, а также U-критерий Манна Уитни, которые используются в качестве аналога параметрического t -теста Стьюдента.

В то же время, если результаты измерения оказываются представленными в более сильной шкале, использование непараметрической статистики означает отказ от части информации, содержащейся в данных. Следствием этого является опасность возрастания ошибки второго рода, свойственной этим методам.

Таким образом, методы непараметрической статистики оказываются более консервативными по сравнению с методами параметрической статистики. Их использование грозит в большей мере ошибкой второго рода, т.е. ситуацией, когда исследователь, например, не может обнаружить отличия двух выборок, когда такие отличия на самом деле имеют место. Иными словами, такие методы оказываются менее мощными по сравнению с параметрическими методами. Поэтому использование параметрической статистики в анализе экспериментальных данных, отличающихся от простого ранжирования, как правило, является предпочтительным.