Дисперсия, среднеквадратичное (стандартное) отклонение, коэффициент вариации

Из предыдущей статьи мы узнали о таких показателях, как размах вариации, межквартильный размах и среднее линейное отклонение. В этой статье изучим дисперсию, среднеквадратичное отклонение и коэффициент вариации.

Напомню, что среднее линейное отклонение отражает среднее из абсолютных отклонений от средней величины. Чтобы избежать взаимопогашения положительных и отрицательных значений, каждое отклонение берется по модулю. Та же идея используется в расчете другого показателя, только отклонения возводятся в квадрат. Квадрат любого числа, как известно, всегда будет положительным.

Дисперсия

Речь идет о дисперсии случайной величины. Это очень важный показатель, который часто используется в различных методах статистического анализа (проверка гипотез, анализ причинно-следственных связей и др.). Как и среднее линейное отклонение, дисперсия также отражает меру разброса данных вокруг средней величины.

Сейчас небольшой экскурс в теорию вероятностей, которая лежит в основе математической статистики. Как и матожидание, дисперсия является важной характеристикой случайной величины. Если матожидание отражает центр случайной величины, то дисперсия дает характеристику разброса данных вокруг центра.

Формула дисперсии в теории вероятностей имеет вид:

Формула дисперсии в теории вероятностей

То есть дисперсия — это математическое ожидание отклонений от математического ожидания.

На практике при анализе выборок математическое ожидание, как правило, не известно. Поэтому вместо него используют оценку – среднее арифметическое.

Дисперсия во выборке

где

s2 – выборочная дисперсия, рассчитанная по данным наблюдений,

X – отдельные значения,

– среднее арифметическое по выборке.

Примечание. Для расчета дисперсии в Excel предусмотрена специальная функция.

Стоит отметить, что у такого расчета дисперсии есть недостаток – она получается смещенной, т.е. ее математическое ожидание не равно истинному значению дисперсии. Подробней об этом здесь. В то же время не все так плохо. При увеличении объема выборки она все-таки приближается к своему теоретическому аналогу, т.е. является асимптотически не смещенной. Поэтому при работе с большими размерами выборок можно использовать формулу выше.

Язык знаков полезно перевести на язык слов. Получится, что дисперсия – это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Разгадка заключается всего в трех словах.

Однако в чистом виде, как, например, средняя арифметическая, или индекс, дисперсия не используется. Это скорее вспомогательный и промежуточный показатель, который необходим для других видов статистического анализа. У нее даже единицы измерения нормальной нет. Судя по формуле, это квадрат единицы измерения исходных данных. Без бутылки, как говорится, не разберешься.

Среднеквадратичное отклонение

Дабы вернуть дисперсию в реальность, то есть использовать в более приземленных целях, из нее извлекают квадратный корень. Получается так называемое среднеквадратичное отклонение (СКО). Встречаются названия «стандартное отклонение» или «сигма» (от названия греческой буквы). Формула стандартного отклонения имеет вид:

Среднеквадратичное отклонение

Для расчета стандартного отклонения из выборки используют формулу:

Среднее квадратичное отклонение по выборке

Как и с дисперсией, есть и немного другой вариант расчета. Но с ростом выборки разница исчезает.

Среднеквадратичное отклонение, очевидно, также характеризует меру рассеяния данных, но теперь (в отличие от дисперсии) его можно сравнивать с исходными данными, так как единицы измерения у них одинаковые (это явствует из формулы расчета). Но и этот показатель в чистом виде не очень информативен, так как в нем заложено слишком много промежуточных расчетов, которые сбивают с толку (отклонение, в квадрат, сумма, среднее, корень). Тем не менее, со среднеквадратичным отклонением уже можно работать непосредственно, потому что свойства данного показателя хорошо изучены и известны. К примеру, есть такое правило трех сигм, которое гласит, что у нормально распределенных данных 997 значений из 1000 находятся в пределах ±3 сигмы от средней арифметической. Среднеквадратичное отклонение, как мера неопределенности, также участвует во многих статистических расчетах. С ее помощью устанавливают степень точности различных оценок и прогнозов. Если вариация очень большая, то стандартное отклонение тоже получится большим, следовательно, и прогноз будет неточным, что выразится в очень широких доверительных интервалах.

Коэффициент вариации

Среднее квадратичное отклонение дает абсолютную оценку меры разброса. Поэтому чтобы понять, насколько разброс велик относительно самих значений (т.е. независимо от их масштаба), требуется относительный показатель. Такой показатель называется коэффициентом вариации и рассчитывается по следующей формуле:

Формула коэффициента вариации

Коэффициент вариации измеряется в процентах (если умножить на 100%). По этому показателю можно сравнивать однородность самых разных явлений независимо от их масштаба и единиц измерения. Данный факт и делает коэффициент вариации столь популярным.

В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. Не знаю, кто и почему так определил, но это считается аксиомой.

Чувствую, что я увлекся сухой теорией и нужно привести что-то наглядное и образное. С другой стороны все показатели вариации описывают примерно одно и то же, только рассчитываются по-разному. Отличаться могут лишь значения показателей, но не их суть. Вот и сравним, как отличаются значения различных показателей вариации для одной и той же совокупности данных:

Данные для расчета вариации

Соответствующая диаграмма.

Разброс данных

Рассчитаем различные показатели вариации.

Среднее значение – это обычная средняя арифметическая.

Среднее арифметическое

Размах вариации – разница между максимальным и минимальным значениями:

Размах вариации

Среднее линейное отклонение считается по формуле:

Среднее линейное отклонение

Дисперсия:

Дисперсия

Стандартное отклонение:

Среднее квадратичное отклонение

Расчет сведем в табличку.

Расчет показателей вариации

Как видно, среднее линейное и среднеквадратичное отклонение дают похожие значения степени вариации данных. Дисперсия – это сигма в квадрате, поэтому она всегда будет относительно большим числом, что, собственно, ни о чем не говорит. Размах вариации – это разница между крайними значениями и может говорить о многом.

Подведем некоторые итоги.

Вариация показателя отражает изменчивость процесса или явления. Ее степень может измеряться с помощью нескольких показателей.

1. Размах вариации – разница между крайними значениями. Отражает диапазон возможных значений.
2. Среднее линейное отклонение – отражает среднее из абсолютных (по модулю) отклонений всех значений анализируемой совокупности от их средней величины.
3. Дисперсия – средний квадрат отклонений.
4. Среднеквадратичное отклонение – корень из дисперсии (среднего квадрата отклонений).
5. Коэффициент вариации – наиболее универсальный показатель, отражающий степень разброса значений независимо от их масштаба и единиц измерения. Коэффициент вариации измеряется в процентах и может быть использован для сравнения вариации различных процессов и явлений.

Таким образом, в статистическом анализе существует система показателей, отражающих однородность явлений и устойчивость процессов. Часто показатели вариации не имеют самостоятельного смысла и используются для дальнейшего анализа данных (расчет доверительных интервалов, проверка статистических гипотез и др.). Исключением является коэффициент вариации, который характеризует однородность данных, что является ценной статистической характеристикой.

Про дисперсию можно много чего еще рассказать. Например, у нее есть ряд полезных свойств. Но на сегодня все. До скорых встреч.

Поделиться в социальных сетях:
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  • Алексей

    Спасибо! Читал с огромным удовольствием, жаль что таких учителей на всех не хватает…

  • пипа

    Различаются ли величины среднего линейного отклонения и среднего квадратического отклонения? Если да — то почему?

  • Рустем

    Стандартная ошибка и стандартное отклонение это одно и то же?

  • Сергей

    Подскажите, как можно характеризовать величину, у которой стандартное отклонение равно или больше, чем матожидания?

    • Езепов Дмитрий

      Никак. Одно от другого не зависит.

      • Сергей

        Простите, то есть как? Ведь они вычисляются из одной и той же совокупности… Тогда логично предположить, что если значение ср кв отклонения близко к матожиданию (посчитанному как ср арфметическое), то такое матожидание следует считать ненадежным и для расчетов лучше его уточнить (с помощью моды/медианы, удаления из выборки резко выбивающихся значений)… Просто в качестве аналогии про себя имел в виду одно из свойств распределения Пуассона, в котором матож равно дисперсии, и потому такие величины крайне трудно предсказуемы.

        • Езепов Дмитрий

          Стандартное отклонение — это разброс, среднее арифметическое — это характеристика положения распределения. Соотношение стандартного отклонения к средней называется коэффициентом вариации. Некоторые считают, что если коэффициент вариации больше 0,33, то совокупность является неоднородной. Другие интерпретации соотношения стандартного отклонения и средней мне не известны. Надежность определяется типом распределения и доверительным интервалом. Выбросы, да, лучше удалить.