Дисперсия, среднеквадратичное (стандартное) отклонение, коэффициент вариации

Из предыдущей статьи мы узнали о таких показателях, как размах вариации, межквартильный размах и среднее линейное отклонение. Но наиболее информативными и часто используемыми явлются: дисперсия, среднеквадратичное отклонение и коэффициент вариации.

Напомню, что среднее линейное отклонение отражает среднее абсолютное отклонение значений от их средней величины. При расчете этого показателя, чтобы избежать взаимопогашения положительных и отрицательных отклонений, используется модуль, то есть каждое отклонение от средней берется с положительным знаком. Та же идея лежит в расчете другого известного в статистике показателя, только отклонения берутся не по модулю, а возводятся в квадрат. Квадрат любого числа, как известно, всегда будет положительным.

Дисперсия

Речь идет о дисперсии случайной величины. Это очень важный показатель, который активно используется в различных методах статистического анализа (проверка гипотез, анализ причинно-следственных связей и др.). Как и среднее линейное отклонение, дисперсия также отражает меру разброса данных вокруг средней величины.

Сейчас небольшой экскурс в теорию вероятностей, которая лежит в основе математической статистики. Как и матожидание, дисперсия является важной характеристикой случайной величины. Если матожидание отражает центр случайной величины, то дисперсия дает характеристику разброса данных вокруг центра.

Формула дисперсии в теории вероятностей имеет вид:

Формула дисперсии в теории вероятностей

То есть дисперсия — это математическое ожидание отклонений от математического ожидания.

На практике при анализе выборок математическое ожидание, как правило, не известно. Поэтому вместо него используют оценку – среднее арифметическое.

Дисперсия во выборке

где

s2 – выборочная дисперсия, рассчитанная по данным наблюдений,

X – отдельные значения,

– среднее арифметическое по выборке.

Примечание. Для расчета дисперсии в Excel предусмотрена специальная функция.

Стоит отметить, что у такого расчета дисперсии есть недостаток – она получается смещенной, т.е. ее математическое ожидание не равно истинному значению дисперсии. Подробней об этом здесь. В то же время не все так плохо. При увеличении объема выборки она все-таки приближается к своему теоретическому аналогу, т.е. является асимптотически не смещенной. Поэтому при работе с большими размерами выборок можно использовать формулу выше.

Язык знаков полезно перевести на язык слов. Получится, что дисперсия — это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, мы просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Разгадка заключается всего в трех словах.

Однако в чистом виде, как, например, средняя арифметическая, или индекс, дисперсия не используется. Это скорее вспомогательный и промежуточный показатель, который необходим для других видов статистического анализа. У нее даже единицы измерения нормальной нет. Судя по формуле, это квадрат единицы измерения исходных данных. Без бутылки, как говорится, не разберешься.

Среднеквадратичное отклонение

{module 111}

Дабы вернуть дисперсию в реальность, то есть использовать в более приземленных целей, из нее извлекают квадратный корень. Получается так называемое среднеквадратичное отклонение (СКО). Встречаются названия «стандартное отклонение» или «сигма» (от названия греческой буквы). Формула стандартного отклонения имеет вид:

Среднеквадратичное отклонение

Для получения этого показателя по выборке используют формулу:

Среднее квадратичное отклонение по выборке

Как и с дисперсией, есть и немного другой вариант расчета. Но с ростом выборки разница исчезает.

Среднеквадратичное отклонение, очевидно, также характеризует меру рассеяния данных, но теперь (в отличие от дисперсии) его можно сравнивать с исходными данными, так как единицы измерения у них одинаковые (это явствует из формулы расчета). Но и этот показатель в чистом виде не очень информативен, так как в нем заложено слишком много промежуточных расчетов, которые сбивают с толку (отклонение, в квадрат, сумма, среднее, корень). Тем не менее, со среднеквадратичным отклонением уже можно работать непосредственно, потому что свойства данного показателя хорошо изучены и известны. К примеру, есть такое правило трех сигм, которое гласит, что у нормально распределенных данных 997 значений из 1000 находятся в пределах ±3 сигмы от средней арифметической. Среднеквадратичное отклонение, как мера неопределенности, также участвует во многих статистических расчетах. С ее помощью устанавливают степень точности различных оценок и прогнозов. Если вариация очень большая, то стандартное отклонение тоже получится большим, следовательно, и прогноз будет неточным, что выразится, к примеру, в очень широких доверительных интервалах.

Коэффициент вариации

Среднее квадратическое отклонение дает абсолютную оценку меры разброса. Поэтому чтобы понять, насколько разброс велик относительно самих значений (т.е. независимо от их масштаба), требуется относительный показатель. Такой показатель называется коэффициентом вариации и рассчитывается по следующей формуле:

Формула коэффициента вариации

Коэффициент вариации измеряется в процентах (если умножить на 100%). По этому показателю можно сравнивать однородность самых разных явлений независимо от их масштаба и единиц измерения. Данный факт и делает коэффициент вариации столь популярным.

В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. Мне здесь трудно что-то прокомментировать. Не знаю, кто и почему так определил, но это считается аксиомой.

Чувствую, что я увлекся сухой теорией и нужно привести что-то наглядное и образное. С другой стороны все показатели вариации описывают примерно одно и то же, только рассчитываются по-разному. Поэтому разнообразием примеров блеснуть трудно, Отличаться могут лишь значения показателей, но не их суть. Вот и сравним, как отличаются значения различных показателей вариации для одной и той же совокупности данных. Возьмем пример с расчетом среднего линейного отклонения (из предыдущей статьи). Вот исходные данные:

Данные для расчета вариации

И график для напоминания.

Разброс данных

По этим данным рассчитаем различные показатели вариации.

Среднее значение – это обычная средняя арифметическая.

Среднее арифметическое

Размах вариации – разница между максимумом и минимумом:

Размах вариации

Среднее линейное отклонение считается по формуле:

Среднее линейное отклонение

Дисперсия:

Дисперсия

Стандартное отклонение:

Среднее квадратичное отклонение

Расчет сведем в табличку.

Расчет показателей вариации

Как видно, среднее линейное и среднеквадратичное отклонение дают похожие значения степени вариации данных. Дисперсия – это сигма в квадрате, поэтому она всегда будет относительно большим числом, что, собственно, ни о чем не говорит. Размах вариации – это разница между крайними значениями и может говорить о многом.

Подведем некоторые итоги.

Вариация показателя отражает изменчивость процесса или явления. Ее степень может измеряться с помощью нескольких показателей.

1. Размах вариации – разница между максимумом и минимумом. Отражает диапазон возможных значений.
2. Среднее линейное отклонение – отражает среднее из абсолютных (по модулю) отклонений всех значений анализируемой совокупности от их средней величины.
3. Дисперсия – средний квадрат отклонений.
4. Среднеквадратичное отклонение – корень из дисперсии (среднего квадрата отклонений).
5. Коэффициент вариации – наиболее универсальный показатель, отражающий степень разброса значений независимо от их масштаба и единиц измерения. Коэффициент вариации измеряется в процентах и может быть использован для сравнения вариации различных процессов и явлений.

Таким образом, в статистическом анализе существует система показателей, отражающих однородность явлений и устойчивость процессов. Часто показатели вариации не имеют самостоятельного смысла и используются для дальнейшего анализа данных (расчет доверительных интервалов, проверка статистических гипотез и др.). Исключением является коэффициент вариации, который характеризует однородность данных, что является ценной статистической характеристикой.

Про дисперсию можно много чего еще рассказать. Например, у нее есть ряд полезных свойств. Но на сегодня все. До скорых встреч.

Поделиться в социальных сетях:
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •