Вариация, размах, межквартильный размах, среднее линейное отклонение

В этой статье мы приступим к изучению очень важной темы в статистике – показателям вариации. Тема важная не только сама по себе, но и потому что в разных статистических исследованиях часто встречаются ссылки на тот или иной показатель вариации. И если в этом ничего не понимать, приходится верить на слово. Верить же на слово аналитикам и экспертам я бы не рекомендовал. Тема вариации не сложная, но требует хорошего осмысления. Чтобы не сильно утруждать читателя (благо, это не учебник по эконометрике), я постараюсь все детально разжевать и показать на наглядных примерах.

В математической статистике вариация занимает одно из центральных мест. На практике (по крайней мере, в экономическом анализе) к показателям вариации обращаются реже. Элементарное описание данных часто ограничивается расчетом средней арифметической, реже медианы, различных индексов. Однако при проведении маркетинговых исследований, связанных с выборочным обследованием, без учета вариации уже не обойтись, если, конечно, подходить к делу ответственно.

Итак, что же такое вариация? Это изменчивость. Вариация показателя – изменчивость показателя. Статистика имеет дело с массовыми явлениями, которые измеряются с помощью статистических показателей. Вот эти показатели от наблюдения к наблюдению изменяют свои значения, это и называется вариацией показателя. К примеру, если все измерения какого-то процесса дают один и тот же результат, то вариация будет равна нулю – ничего не меняется, все значения одинаковы. Если изучить разницу в зарплате в различных отраслях народного хозяйства, то вариация может быть весьма существенной.

Показатели вариации дают очень важную характеристику процессам и явлениям. Они отражают устойчивость процессов и однородность явлений. Чем меньше показатель вариации, тем более процесс устойчивый, а значит, и более предсказуемый.

Приведу пару примеров, где используются показатели вариации. Первое, что приходит на ум – это известный АВС-XYZ анализ. XYZ – как раз характеризует вариацию изучаемого показателя. Об этом методе я обязательно еще напишу, так как давно точу на него зуб.

Вот другой пример, еще проще. Максимальное и минимальное значение всего, чего угодно: температуры, скорости, стоимости, заказа и проч. Разница между максимальным и минимальным значением показывает диапазон возможных значений, а, значит, и вариацию.

Показатели вариации отражают не отдельно взятые значения, а дают характеристику некоторому явлению или процессу в целом. Имея в наличии показатели среднего значения и вариации, можно получить неплохое представление об исследуемом явлении. Средняя – это обобщающий уровень, а вариация характеризует, насколько среднее значение (или другой показатель) хорошо обобщает значения некоторой совокупности данных. Если показатель вариации незначительный, то значения совокупности находятся близко к среднему, следовательно, среднее значение хорошо обобщает совокупность. Если вариация большая, то среднее значение плохо обобщает данные (значения разбросаны далеко друг от друга), и получается «средняя температура по больнице».

Теперь посмотрим, с помощью каких показателей измеряется вариация.

Размах вариации

Первый показатель мы уже упомянули – это размах вариации, то есть разница между максимальным и минимальным значением. Думаю, здесь пояснять нечего, все элементарно. Для порядка напишем формулу:

Формула размаха вариации

Примечание. Расчет в Excel максимума и минимума. А также максимум и минимум по условию.

С одной стороны, показатель размаха может быть вполне информативным и полезным. К примеру, максимальная и минимальная стоимость квартиры в городе N, максимальная и минимальная зарплата по профессии в регионе и проч. С другой стороны, размах может быть очень широким и не иметь практического смысла.

Ниже приведена графическая интерпретация размаха вариации.

Размах вариации на рисунке

Видно максимальное и минимальное значение, а также расстояние между ними, которое и соответствует размаху вариации.

Данный показатель не дает устойчивую оценку, так как зависит от двух, как правило, случайных значений максимума и минимума. Таким образом, размах вариации очень неустойчивая величина.

Межквартильный размах

В статистике для анализа выборки (можно скачать специальный дашборд) довольно часто прибегают к другому показателю вариации – межквартильному размаху. Квартиль – это то значение, которые делит ранжированные (отсортированные) данные на части, кратные одной четверти, или 25%. Так, 1-й квартиль – это значение, ниже которого находится 25% совокупности. 2-й квартиль делит совокупность данным пополам (то бишь медиана), ну и 3-й квартиль отделяет 25% наибольших значений. Так вот межквартильный размах – это разница между 3-м и 1-м квартилями. У данного показателя есть одно неоспоримое преимущество: он является робастным, т.е. не зависит от аномальных отклонений.

Наглядное отображение размаха вариации и межкварительного расстояния производят с помощью диаграммы «ящик с усами».

Среднее линейное отклонение

{module 111}

Есть показатели вариации, которые учитывают сразу все значения, а не только отдельные наблюдения (типа максимума или минимума). Одним из таких является среднее линейное отклонение. Этот показатель характеризует меру разброса значений вокруг их среднего. В чем суть? Для того, чтобы показать меру разброса данных, нужно вначале определиться, относительно чего этот самый разброс будет считаться. Обычно это среднее арифметическое. Далее нужно посчитать, насколько каждое значение отклоняется от средней. Нас интересует среднее из таких отклонений. Однако напрямую складывать положительные и отрицательные отклонения нельзя, т.к. они взаимоуничтожатся и их сумма будет равна нулю. Поэтому все отклонения берутся по модулю. Средне линейное отклонение рассчитывается по формуле:

Формула среднего линейного отклонения

где

a – среднее линейное отклонение,

X – анализируемый показатель,

– среднее значение показателя,

n – количество значений в анализируемой совокупности данных.

Примечане. Среднее линейное отклонение в Excel.

Рассчитанное по этой формуле значение показывает среднее абсолютное отклонение от средней арифметической. Наглядная картинка в помощь.

Расчет среднего линейного отклонения

Отклонения каждого наблюдения от среднего указаны маленькими стрелочками. Именно они берутся по модулю и суммируются. Потом все делится на количество значений.

Для полноты картины нужно привести еще и пример. Допустим, имеется фирма по производству черенков для лопат. Каждый черенок должен быть 1,5 метра длиной, но, что еще важней, все должны быть одинаковыми или, по крайней мере, плюс-минус 5 см. Однако нерадивые работники то 1,2 м отпилят, то 1,8 м. Дачники недовольны. Решил директор фирмы провести статистический анализ длины черенков. Отобрал 10 штук и замерил их длину, нашел среднюю и рассчитал среднее линейное отклонение. Средняя получилась как раз, что надо – 1,5 м. А вот среднее линейное отклонение вышло 0,16 м. Вот и получается, что каждый черенок длиннее или короче, чем нужно, в среднем на 16 см. Есть, о чем поговорить с работниками. На самом деле я не встречал реального использования данного показателя, поэтому пример придумал сам. Тем не менее, в статистике есть такой показатель.

На этом сегодняшнюю заметку закончим. В следующей статье будут рассмотрены такие показатели вариации, как дисперсия, среднеквадратичное отклонение и коэффициент вариации.

До скорых встреч на страницах блога statanaliz.info.

Поделиться в социальных сетях:
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •