Линейный коэффициент корреляции Пирсона

Одна из главных задач статистического анализа – поиск и обнаружение взаимосвязей между анализируемыми явлениями. На то есть две причины.
Первая. Если известно, что один процесс зависит от другого, то на первый можно оказывать влияние через второй. Вторая. Даже если причинно-следственная связь отсутствует, то по изменению одного показателя можно предсказать изменение другого.
Взаимосвязь двух переменных проявляется в совместной вариации: при изменении одного показателя второй также имеет тенденцию к изменению. Такая взаимосвязь называется корреляцией. Корреляция характеризуется направлением, формой и теснотой. Ниже представлены примеры корреляционной связи.

Разные типы корреляции

Далее будет рассматриваться линейная корреляция. На диаграмме рассеяния ниже изображена линейная корреляция двух переменных, пунктиром показаны их средние.

Линейная корреляция

При положительном отклонении X от своей средней, Y также в большинстве случаев отклоняется в положительную сторону от своей средней. Для X меньше среднего, Y, как правило, тоже ниже среднего. Это прямая взаимосвязь. Бывает и обратная взаимосвязь, когда положительное отклонение от средней X ассоциируется с отрицательным отклонением от средней Y.
Линейность корреляции проявляется в том, что точки расположены вдоль прямой линии. Положительный или отрицательный наклон такой линии определяется направлением взаимосвязи.
Крайне важная характеристика корреляции – теснота. Чем теснее взаимосвязь, тем больше облако рассеяния точек похоже на прямую линию. Как же ее измерить?
Складывать отклонения каждого показателя от своей средней нет смысла, получим нуль. Похожая проблема встречалась при измерении вариации, а точнее дисперсии. Там эту проблему обходят через возведение каждого отклонения в квадрат.

Формула дисперсии

Квадрат отклонения от средней измеряет вариацию показателя как бы относительно самого себя. На n-1 (если для выборки) делят, чтобы устранить влияние количества наблюдений.
Если второй множитель в числителе заменить на отклонение от средней второго показателя, то получится совместная вариация двух переменных, которая называется ковариацией.

Формула ковариации

Чем больше пар имеют одинаковый знак отклонения от средней, тем больше сумма в числителе (произведение двух отрицательных чисел также дает положительное число). Большая положительная ковариация говорит о прямой взаимосвязи между переменными. Обратная взаимосвязь дает отрицательную ковариацию. Если количество совпадающих по знаку отклонений примерно равно количеству несовпадающих, то ковариация стремится к нулю, что говорит об отсутствии линейной взаимосвязи.
Таким образом, чем больше по модулю ковариация, тем теснее линейная взаимосвязь. Однако значение ковариации зависит от масштаба данных, поэтому невозможно сравнивать корреляцию для разных переменных. Можно определить только направление по знаку. Чтобы получить Для получения стандартизованной величины тесноты взаимосвязи нужно избавиться от единиц измерения путем деления ковариации на произведение стандартных отклонений обеих переменных.

Формула линейного коэффициента корреляции Пирсона

Эту формулу придумал еще Пирсон в 1896 году. Сам показатель имеет полное название линейный коэффициент корреляции Пирсона или просто коэффициентом корреляции.
Коэффициент корреляции изменяется в диапазоне от -1 до 1. -1 (минус один) означает полную (функциональную) обратную взаимосвязь. 1 (один) – полную (функциональную) положительную взаимосвязь. 0 – отсутствие линейной корреляции (но не обязательно взаимосвязи). На практике всегда получаются промежуточные значения. Для наглядности ниже представлены несколько примеров с разной теснотой линейной взаимосвязи.

Различная степень корреляции

Диаграммы рассеяния дают наглядное представление, что измеряет коэффициент корреляции. Однако нужна более формальная интерпретация. Эту роль выполняет квадрат коэффициента корреляции r2, который называется коэффициентом детерминации, и обычно применяется при оценке качества регрессионных моделей. Снова представьте линию, вокруг которой расположены точки.

Разброс точек вдоль прямой линии

Линейная функция является моделью взаимосвязи между X иY и показывает ожидаемое значение Y при заданном X. Коэффициент детерминации – это соотношение дисперсии ожидаемых Y (точек на прямой линии) к общей дисперсии Y, или доля объясненной вариации Y. При r = 0,1 r2 = 0,01 или 1%, при r = 0,5 r2 = 0,25 или 25%.

Доверительный интервал коэффициента корреляции

Коэффициент корреляции обычно рассчитывают по выборке. Значит, у аналитика в распоряжении не истинное значение, а оценка, которая всегда ошибочна. Однако, если выборка была репрезентативной, то истинное значение коэффициента корреляции находится где-то относительно недалеко от оценки. Насколько далеко, можно определить через доверительные интервалы.
Согласно Центральное Предельной Теореме распределение оценки любого показателя стремится к нормальному с ростом выборки. Но есть проблемка. Распределение коэффициент корреляции ограничено своими предельными значениями -1 и 1, и распределение оценок вблизи этих значений не является симметричным. Ниже показано распределение выборочных коэффициентов корреляции, извлеченных из генеральной совокупности, в которой истинный коэффициент корреляции ρ равен 0,86.

Распределение выборочных коэффициентов корреляции

Предельное значение не дает выйти за 1 и, как бы «поджимает» распределение справа. Симметричная ситуация наблюдается, если коэффициент корреляции близок к -1.
В общем рассчитывать на свойства нормального распределения нельзя. Поэтому Фишер предложил провести преобразование выборочного коэффициента корреляции по формуле:

Преобразование Фишера

Распределение z для тех же r имеет следующий вид.

Распределение коэффициентов корреляции после преобразования Фишера

Намного ближе к нормальному. Стандартная ошибка z равна:

Стандартная ошибка z

Далее исходя из свойств нормального распределения несложно найти верхнюю и нижнюю границы доверительного интервала для z. Определим квантиль стандартного нормального распределения для заданной доверительной вероятности, т.е. количество стандартных отклонений от центра распределения.

Квантиль стандартного нормального распределения для расчета доверительного интервала

cγ – квантиль стандартного нормального распределения;
N-1 – функция обратного стандартного распределения;
γ – доверительная вероятность (часто 95%).
Затем рассчитаем границы доверительного интервала.
Нижняя граница z:

Верхняя граница z:

Теперь обратным преобразованием Фишера из z вернемся к r.
Нижняя граница r:

Верхняя граница r:

Это была теоретическая часть. Переходим к практике расчетов.

Расчет коэффициента корреляции в MS Excel

Вначале крайне полезно провести визуальный анализ с помощью диаграммы рассеяния.

Диаграмма рассеяния для визуального анализа корреляции

Рассчитаем коэффициент корреляции Пирсона с помощью функции Excel КОРРЕЛ. В аргументах нужно указать два диапазона, между которыми измеряется корреляция.

Расчет коэффициента корреляции в Excel

Коэффициент корреляции получился 0,88, что говорит об очень тесной взаимосвязи между двумя показателями. Но это лишь оценка, поэтому переходим к интервальному оцениванию.

Расчет доверительного интервала для коэффициента корреляции в Excel

В Эксель нет готовых функций для расчета доверительного интервала коэффициента корреляции, как для средней арифметической. Поэтому план такой:
— Делаем преобразование Фишера для r.
— На основе нормальной модели рассчитываем доверительный интервал для z.
— Делаем обратное преобразование Фишера из z в r.
Удивительно, но для преобразования Фишера есть специальная функция Excel ФИШЕР.

Преобразование Фишера в Excel

Стандартная ошибка z легко подсчитывается с помощью формулы.

Стандартная ошибка z

Используя функцию НОРМ.СТ.ОБР, определим квантиль нормального распределения. Доверительную вероятность возьмем 95%.

Квантиль нормального распределения

Значение 1,96 хорошо известно любому опытному аналитику. В пределах ±1,96σ от средней находится 95% нормально распределенных величин.
Используя z, стандартную ошибку и квантиль, легко определим доверительные границы z.

Доверительные границы для z

Последний шаг – обратное преобразование Фишера из z назад в r с помощью функции Excel ФИШЕРОБР. Получим доверительный интервал коэффициента корреляции.

Доверительные границы коэффициента корреляции

Нижняя граница 95%-го доверительного интервала коэффициента корреляции – 0,724, верхняя граница – 0,953.
Все расчеты можно объединить в одну формулу, чтобы сэкономить место на листе Excel.
Несколько важных замечаний.
1. Коэффициент корреляции Пирсона чувствителен к выбросам. Одно аномальное значение может существенно исказить коэффициент. Поэтому перед проведением анализа следует проверить и при необходимости удалить выбросы. Другой вариант – перейти к ранговому коэффициенту корреляции Спирмена. Рассчитывается также, только не по исходным значениям, а по их рангам (пример показан в ролике под статьей).
2. Наличие корреляции (r ≠ 0) не означает причинно-следственную связь между переменными. Вполне возможно, что совместная вариация обусловлена влиянием третей переменной.
3. Отсутствие линейной корреляции (r = 0) не означает отсутствие взаимосвязи. Она может быть нелинейной. Частично эту проблему решает ранговая корреляция Спирмена, которая показывает совместный рост или снижение рангов, независимо от формы взаимосвязи.
В видео показан расчет коэффициента корреляции Пирсона с доверительными интервалами, ранговый коэффициент корреляции Спирмена.

↓ Скачать файл с примером ↓

Онлайн курс

Статистический анализ в MS Excel

Корпоративный тренинг

Статистический анализ в MS Excel

Поделиться в социальных сетях:
  • 131
  •  
  •  
  • 3
  •  
  •  
  •  
  •  
  •  
    134
    Shares