Дисперсия, среднеквадратичное (стандартное) отклонение, коэффициент вариации в Excel

Из предыдущей статьи мы узнали о таких показателях, как размах вариации, межквартильный размах и среднее линейное отклонение. В этой статье изучим дисперсию, среднеквадратичное отклонение и коэффициент вариации.

Дисперсия

Дисперсия случайной величины – это один из основных показателей в статистике. Он отражает меру разброса данных вокруг средней арифметической.

Сейчас небольшой экскурс в теорию вероятностей, которая лежит в основе математической статистики. Как и матожидание, дисперсия является важной характеристикой случайной величины. Если матожидание отражает центр случайной величины, то дисперсия дает характеристику разброса данных вокруг центра.

Формула дисперсии в теории вероятностей имеет вид:

То есть дисперсия — это математическое ожидание отклонений от математического ожидания.

На практике при анализе выборок математическое ожидание, как правило, не известно. Поэтому вместо него используют оценку – среднее арифметическое. Расчет дисперсии производят по формуле:

где

s² – выборочная дисперсия, рассчитанная по данным наблюдений,

X – отдельные значения,

X̅– среднее арифметическое по выборке.

Стоит отметить, что у такого расчета дисперсии есть недостаток – она получается смещенной, т.е. ее математическое ожидание не равно истинному значению дисперсии. Подробней об этом здесь. Однако при увеличении объема выборки она все-таки приближается к своему теоретическому аналогу, т.е. является асимптотически не смещенной.

Простыми словами дисперсия – это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Теперь вы знаете, как найти дисперсию.

Расчет дисперсии в Excel

Генеральную и выборочную дисперсии легко рассчитать в Excel. Есть специальные функции: ДИСП.Г и ДИСП.В соответственно.

В чистом виде дисперсия не используется. Это вспомогательный показатель, который нужен в других расчетах. Например, в проверке статистических гипотез или расчете коэффициентов корреляции. Отсюда неплохо бы знать математические свойства дисперсии.

Свойства дисперсии

Свойство 1. Дисперсия постоянной величины A равна 0 (нулю).

D(A) = 0

Свойство 2. Если случайную величину умножить на постоянную А, то дисперсия этой случайной величины увеличится в А² раз. Другими словами, постоянный множитель можно вынести за знак дисперсии, возведя его в квадрат.

D(AX) = А² D(X)

Свойство 3. Если к случайной величине добавить (или отнять) постоянную А, то дисперсия останется неизменной.

D(A + X) = D(X)

Свойство 4. Если случайные величины X и Y независимы, то дисперсия их суммы равна сумме их дисперсий.

D(X+Y) = D(X) + D(Y)

Свойство 5. Если случайные величины X и Y независимы, то дисперсия их разницы также равна сумме дисперсий.

D(X-Y) = D(X) + D(Y)

Среднеквадратичное (стандартное) отклонение

Если из дисперсии извлечь квадратный корень, получится среднеквадратичное (стандартное) отклонение (сокращенно СКО). Встречается название среднее квадратичное отклонение и сигма (от названия греческой буквы). Общая формула стандартного отклонения в математике следующая:

На практике формула стандартного отклонения следующая:

Как и с дисперсией, есть и немного другой вариант расчета. Но с ростом выборки разница исчезает.

Расчет cреднеквадратичного (стандартного) отклонения в Excel

Для расчета стандартного отклонения достаточно из дисперсии извлечь квадратный корень. Но в Excel есть и готовые функции: СТАНДОТКЛОН.Г и СТАНДОТКЛОН.В (по генеральной и выборочной совокупности соответственно).

Среднеквадратичное отклонение имеет те же единицы измерения, что и анализируемый показатель, поэтому является сопоставимым с исходными данными.

Коэффициент вариации

Значение стандартного отклонения зависит от масштаба самих данных, что не позволяет сравнивать вариабельность разных выборках. Чтобы устранить влияние масштаба, необходимо рассчитать коэффициент вариации по формуле:

По нему можно сравнивать однородность явлений даже с разным масштабом данных. В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. В реальности, если коэффициент вариации превышает 33%, то специально ничего делать по этому поводу не нужно. Это информация для общего представления. В общем коэффициент вариации используют для оценки относительного разброса данных в выборке.

Расчет коэффициента вариации в Excel

Расчет коэффициента вариации в Excel также производится делением стандартного отклонения на среднее арифметическое:

=СТАНДОТКЛОН.В()/СРЗНАЧ()

Коэффициент вариации обычно выражается в процентах, поэтому ячейке с формулой можно присвоить процентный формат:

Коэффициент осцилляции

Еще один показатель разброса данных на сегодня – коэффициент осцилляции. Это соотношение размаха вариации (разницы между максимальным и минимальным значением) к средней. Готовой формулы Excel нет, поэтому придется скомпоновать три функции: МАКС, МИН, СРЗНАЧ.

Коэффициент осцилляции показывает степень размаха вариации относительно средней, что также можно использовать для сравнения различных наборов данных.

Таким образом, в статистическом анализе существует система показателей, отражающих разброс или однородность данных.

Ниже видео о том, как посчитать коэффициент вариации, дисперсию, стандартное (среднеквадратичное) отклонение и другие показатели вариации в Excel.

Поделиться в социальных сетях:

11 комментариев к “Дисперсия, среднеквадратичное (стандартное) отклонение, коэффициент вариации в Excel”

Аноним
23.06.2018 в 06:54
Спасибо! Читал с огромным удовольствием, жаль что таких учителей на всех не хватает…
Аноним
17.10.2018 в 14:20
Различаются ли величины среднего линейного отклонения и среднего квадратического отклонения? Если да — то почему?
Аноним
20.10.2018 в 18:41
Стандартная ошибка и стандартное отклонение это одно и то же?
Аноним
27.04.2019 в 19:51
Подскажите, как можно характеризовать величину, у которой стандартное отклонение равно или больше, чем матожидания?
1. Езепов Дмитрий
  27.04.2019 в 19:57
  Никак. Одно от другого не зависит.
  1. Аноним
    28.04.2019 в 01:50
    Простите, то есть как? Ведь они вычисляются из одной и той же совокупности… Тогда логично предположить, что если значение ср кв отклонения близко к матожиданию (посчитанному как ср арфметическое), то такое матожидание следует считать ненадежным и для расчетов лучше его уточнить (с помощью моды/медианы, удаления из выборки резко выбивающихся значений)… Просто в качестве аналогии про себя имел в виду одно из свойств распределения Пуассона, в котором матож равно дисперсии, и потому такие величины крайне трудно предсказуемы.
    1. Езепов Дмитрий
      28.04.2019 в 08:24
      Стандартное отклонение — это разброс, среднее арифметическое — это характеристика положения распределения. Соотношение стандартного отклонения к средней называется коэффициентом вариации. Некоторые считают, что если коэффициент вариации больше 0,33, то совокупность является неоднородной. Другие интерпретации соотношения стандартного отклонения и средней мне не известны. Надежность определяется типом распределения и доверительным интервалом. Выбросы, да, лучше удалить.
Аноним
28.04.2020 в 15:27
Может быть, в формулу расчёта коэффициента вариации стоит добавить 100 %? Тем более, далее по тексту идет речь о процентах.
1. Езепов Дмитрий
  29.04.2020 в 15:36
  Да, спасибо за замечание. Нужно будет добавить.
  1. Дмитрий Ерещенко
    25.02.2021 в 22:48
    И все таки коэффициент вариации по формуле: V=(S/X) умножаем 100% ? и конечная формула принимает вид V=(S/X) *100% так? Для меня это важно, пытаюсь доказать не верный результат расчетов. Так как в предоставленных расчетах коэффициента вариации (без умножения на 100%) результат не бывает больше единицы (33%), мои оппоненты утверждают, что совокупность выборки однородная!
Demart Lectus
24.10.2020 в 21:26
Почему мы берём именно квадрат стандартного отклонения для дисперсии вместо того, чтобы его взять по модулю?

Комментарии закрыты.

Дисперсия, среднеквадратичное (стандартное) отклонение, коэффициент вариации в Excel