Статистическая однородность данных

Добрый день, уважаемые читатели и подписчики блога о статанализе.

Часто при описании статистических данных приходится оперировать понятием «однородность». В некоторых предыдущих статьях мне уже приходилось упоминать этот статистический термин. Значимость однородности в статанализе трудно переоценить, так как она напрямую влияет на точность рассчитываемых показателей и качество аналитических выводов. Чем однороднее данные, тем надежнее и адекватнее реалиям результаты статистического анализа. Так что же такое однородность, как ее измеряют, и какой она должна и может быть? Ответим на эти вопросы в данной статье.

Сразу сообщу, что однородность – понятие относительное и растяжимое. Она не имеет точных границ и критериев. Под однородными данными следует понимать некоторый уровень их рассеяния, при котором рассчитываемые статистические показатели (средняя и проч.) будут давать надежную и качественную характеристику анализируемой совокупности. Граница, отделяющая однородные данные от неоднородных, плавная и размытая.
Основным мерилом разброса (и однородности) данных являются показатели вариации: дисперсия, среднее квадратическое отклонение, среднее линейное отклонение. Однако все они связаны с масштабом исходных данных и не дают «независимой» (относительной) характеристики меры разброса. Для преодоления этой проблемы был придуман так называемый коэффициент вариации, который рассчитывается как соотношение среднего квадратического отклонения и средней величины.

Коэффициент вариации

Вручную такие показатели уже давно никто не считает, поэтому в помощь привлекают Excel. Рассчитать коэффициент вариации в Excel нетрудно, хотя готовой формулы и не предусмотрено.

Этот показатель вариации прекрасен тем, что и меру рассеяния учитывает, и единиц измерения не имеет, то есть совершенно не связан с масштабом анализируемых данных. Исходя из этого факта, коэффициенты вариации можно сравнивать между собой и тем самым сопоставлять относительную меру рассеяния данных, независимо от их масштаба. Очень хорошее и полезное свойство.

Таким образом, основным показателем, характеризующим однородность данных, является коэффициент вариации. В статистике принято считать, что, если значение коэффициента менее 33%, то совокупность данных является однородной, если более 33%, то – неоднородной. Почему так, сам не знаю, но так принято. Спорить не будем (ибо не с кем).

Однако значение коэффициента вариации, равное 33%, вряд ли говорит что-то вразумительное, абстрактное число и не более. То есть 33% – это как, много или мало, на что вообще похоже? Нужен наглядный образ. Предлагаю посмотреть, как это требование выглядит на рисунке. Возьмем некоторую случайную величину со средним значением 100 и сгенерируем случайный равномерный разброс данных вокруг нее.

Однородный равномерный разброс данных

Разброс данных вокруг среднего значения 100 я сделал пока в диапазоне плюс/минус 40. Для указанных данных коэффициент вариации составил 24%, то есть совокупность вроде как однородная получилась (менее 33%).

Теперь увеличим диапазон разброса до плюс/минус 80.

Неоднородный равномерный разброс данных

Чисто визуально отчетливо видно, что данные стали более рассеяны. Коэффициент вариации на этот раз составил 45%, следовательно, совокупность стала неоднородной.

Вот из этих двух рисунков выше можно получить первичное представление об отличии однородных данных от неоднородных. На первом – данные однородны со значением коэффициента вариации 24%, на втором – неоднородны со значением вариации 45%. Чем более однородны данные, тем ближе они находятся к среднему значению. Чем менее однородны, тем больше рассеяны и находятся дальше друг от друга и от своей средней.

На этих рисунках представлен один из вариантов разброса данных. Можно увидеть, чем однородные значения отличаются от неоднородных по указанному типу рассеяния, то есть равномерному разбросу в заданных рамках. Однако неоднородность может иметь не только случайный характер в некотором диапазоне, но может быть вызвана совершенно различными обстоятельствами и иметь самую замысловатую конфигурацию.

Типы разброса данных

Сейчас мы проследим основные типы рассеяния значений, которые по отдельности или в совокупности встречаются в реальности. Если уровень коэффициента вариации ниже 33%, то данные принято считать однородными, независимо от характера разброса. Но если вариация выше 33%, то данные считаются неоднородными и с этим нужно что-то делать. Понимание типа разброса может помочь устранить проблему и добиться однородности.

Итак, первый тип разброса (и большого коэффициента вариации) может объясняться наличием аномальных значений. Рассмотрим первоначальные данные с вариаций 24%, только на этот раз добавим аномальное значение путем замены одного из чисел на резко отличающееся от основной массы. Пусть это будет число 500.

Аномалия в данных

Коэффициент вариации с 24% сразу вырос до 55%. Всего одно значение из 50-ти сделали аномальным и общий показатель вариации увеличился в 2 раза! Похожая ситуация уже рассматривалась в статье о чувствительности показателей вариации к аномальным значениям. Бороться с этим пагубным явлением несложно – достаточно удалить из расчета аномальные наблюдения и показатель вариации резко сократится. Вопрос лишь в том, как эти аномалии обнаружить. Здесь есть несколько подходов. Можно просто удалять максимальные и минимальные значения до тех пор, пока коэффициент вариации не станет приемлемым. Еще есть вариант задать некоторые рамки отклонения, за пределами которых все данные отсекаются, то есть исключаются из анализа. Это могут быть, например, два или три среднеквадратических отклонения (2 или 3 сигмы). Строгих рекомендаций нет, все на страх и совесть аналитика. Главное не сильно исказить содержание данных, и в то же время улучшить их качество. Настоятельно рекомендую перед такой чисткой построить график разброса. Во многих случаях одного только графика будет достаточно, чтобы понять, что есть аномалия и что следует удалить из расчетов.

Второй тип разброса связан с качественным различием в данных. К примеру, если мы анализируем данные по предприятиям из различных отраслей, то, отличие будет объясняться, прежде всего, их различной природой. Или, допустим, анализируем продажи дорогих и дешевых товаров. Очевидно, что дешевое покупают чаще и больше, чем дорогое. В общем, в таких случаях нужно провести группировку данных по их качественному отличию. Тогда значения внутри каждой группы будут гораздо более однородны, чем вся исходная совокупность в целом.

Третий тип самый неприятный и встречается, пожалуй, чаще всего. Это большой разброс данных без каких-либо очевидных на то причин.

Большой разброс данных

Даже если мы уберем аномальные наблюдения из анализа, у нас все равно останется значительный разброс, а провести группировку по какому-либо качественному показателю нет возможности. В таком случае проводят «принудительную» группировку, то есть задают некоторые границы, которые разбивают исходную совокупность на части. Простые способы группировки – это разделение на равные по размеру группы либо через равные интервалы значений. Более сложные виды группировки связаны со структурой данных и часто базируются на принципе Парето (закон Парето). В качестве самого яркого примера можно привести ABC-анализ, который делит данные таким образом, что они разбиваются на три группы в зависимости от их вклада в общую сумму. В группу А попадают примерно 20% значений, дающих 80% общего итога, в группу B – еще 30% значений, дающих 15% итога и в группу C – оставшиеся 50% значений, дающих всего 5% общего итога. Однако и классический ABC-анализ далеко не всегда решает проблему однородности. Тогда данные детализируют еще больше. Часто в качестве групп или границ выступают значения, которые просто удобны или следуют некоторой логике.

Вариация динамических данных

Выше перечисленные типы разброса данных относятся к пространственному представлению оных. То есть они характеризуют явление или процесс в разных местах пространства, но в одно и то же время. В статистике различают и другой вид данных – динамические. Таковые характеризуют развитие одного и того же объекта во времени. Как правило, это один и тот же показатель, который фиксируется через некоторые промежутки времени. Полученные данные называются динамикой. Всем знакомы выражения типа «динамика ВВП», «увеличение цен», «рост населения», «тенденция чего-либо». Все это динамические данные, характеризующие одно явление в разное время. Рассматривая такие данные с точки зрения однородности можно обнаружить некоторые важные особенности.

Для наглядности воспользуемся данными из примера выше, только на этот раз они будут описывать некоторую динамику. Для этого заменим горизонтальную ось номера наблюдения на ось времени. Тогда первый рисунок будет характеризовать скачкообразную динамику некоторого показателя. Для наглядности точки из первого графика соединим линией – будет больше похоже на динамику.

Динамика данных

Вначале следует обозначать один важный момент в интерпретации динамических (а не пространственных) данных. С точки зрения математики, все данные одинаковы – набор чисел. С точки зрения интерпретации, конечно, есть отличия. Рассеяние данных в динамике называют колеблемостью, так как одно и то же явление меняет свое значение во времени, а график похож на колебания. Уровень колеблемости в динамике измеряется так же, как и уровень рассеяния в пространстве – с помощью коэффициента вариации. Если колеблемость носит случайный, то есть необъяснимый характер, то говорят, что процесс нестабилен. Стабильность определяется коэффициентом вариации. Чем больше необъяснимая вариация, тем менее стабилен процесс.

Второй момент. Стабильность (или колеблемость) тесно связана с понятием прогнозируемости. Чем стабильнее процесс, тем его легче прогнозировать, и наоборот. Другими словами, чем меньше случайные отклонения показателя от ожидаемого уровня, тем точнее можно сделать прогноз. Таким образом, с помощью коэффициента вариации измеряют уровень колеблемости (или стабильности) и вместе с тем уровень прогнозируемости динамических данных. Теперь возвращаемся к нашим баранам.

Четвертый тип разброса данных связан с развитием явления в динамике. Многие явления в природе имеют некоторую тенденцию развития. Если она нулевая (уровень не растет и не уменьшается в долгосрочной перспективе), то данные будут похожи на колебания вокруг постоянного уровня (среднего значения), как на рисунке выше. Но чаще значения показателей под воздействием некоторых факторов со временем растут или уменьшаются, то есть имеют некоторую тенденцию. Допустим, что наши первоначальные данные – это ежедневные продажи какого-то товара. Мода на товары приходит и уходит, поэтому часто наблюдается рост или уменьшение продаж. Например, наша динамика продаж имеет ярко выраженный рост.

Динамика с тенденцией

Понятное дело, что наличие тенденции отдаляет многие значения от средней, что автоматически отражается на коэффициенте вариации (непомерно завышая его). Коэффициент вариации не понимает, где тенденция, а где нет. Он тупо берет и считает отклонения от средней по указанной совокупности. В итоге многие значения под действием вполне конкретных факторов находятся далеко от среднего уровня, увеличивая тем самым коэффициент вариации. В нашем случае после добавления ежедневного роста продаж на 5 единиц коэффициент вариации увеличился с 24% до 35%. Изменение существенное. Что из этого следует уяснить? Рассказываю дальше.

Как только что было отмечено, прогнозируемость определяется уровнем необъяснимых колебаний. Однако тенденция может быть вполне объяснена и вычленена из динамики с помощью соответствующих статистических методов. В то же время коэффициент вариации не разбирает, где тенденция, а где случайность, и считает все отклонения от средней подряд, независимо от их происхождения. Получается, что тенденция завышает уровень вариации и, следовательно, занижает уровень прогнозируемости. То есть коэффициент, конечно, ничего занизить или завысить не может, но если оценивать уровень прогнозируемости через коэффициент вариации, то можно сделать неверные выводы. Касательно наших данных случайная колеблемость составляет 24% (за вычетом тенденции, которую действительно можно убрать с помощью некоторых расчетов), а коэффициент вариации говорит о колеблемости 35%. В корзине 3кг яблок, а весы кажут 5кг. На базаре могут и морду набить за такое взвешивание. Аналитику, возможно, морду и не набьют, но последствия от таких ошибок могут быть весьма неприятны.

Это был пример того, как наличие вполне прогнозируемой тенденции может увеличить коэффициент вариации и ввести в заблуждение аналитика о степени прогнозируемости данных. Короче, не все то солнышко, что блестит и не все то плохо прогнозируется, что имеет большой коэффициент вариации. Уменьшить коэффициент вариации в ряде динамики, в котором присутствует выраженная тенденция, можно путем устранения этой тенденции из ряда. Как это делается, расскажу в специальной статье. Следите, как говорится, за рекламой.

Пятый тип разброса сильно похож на четвертый. Только в данных динамики может присутствовать еще и цикличность, которая является вполне контролируемым и прогнозируемым фактором. Однако ж под ее воздействием коэффициент вариации растет как на дрожжах. Для полноты представления к предыдущим данным (с тенденцией) добавляем цикличность продаж (на выходных торговля бывает в разы лучше, чем в будние дни).

Динамика с тенденцией и цикличностью

Для данных с этого графика коэффициент вариации составил уже 40%. Хотя если убрать из ряда динамики тенденцию и цикличность (прогнозируемые составляющие ряда), то вариация вновь станет 24%, как в первоначальном варианте.

Цикличность и тенденция увеличивают общую вариацию, что может привести к неверным выводам относительно прогнозируемости. Для решения проблемы обе компоненты убираются из ряда динамики с помощью специальных расчетов. Уровень прогнозируемости правильно считать по оставшейся части динамического ряда (случайной компоненте).

Итак, это были основные типы причин, которые оказывают непосредственное влияние на уровень коэффициента вариации. Часто в данных присутствуют не один вид, а несколько. К примеру динамика может иметь и тенденцию, и сезонность, и аномальные всплески с провалами.

Как уже неоднократно говорилось, неоднородность – это зло, которое снижает точность анализа. Например, делает практически невозможным применение XYZ-анализа. Перечислю еще раз основные способы, с помощью которых можно устранить или снизить неоднородность данных.

1. Устранение аномальных наблюдений.

2. Группировка данных по резкому качественному отличию.

3. «Принудительная» группировка.

4. Устранение тенденции в динамических данных.

5. Устранение сезонности в динамических данных.

В реальности однородные данные в готовом виде встречаются редко, поэтому аналитику перед проведением анализа приходится каким-либо образом их обработать. Главное здесь, чтобы и овцы остались целы и волки сыты, то бишь и качество данных не пострадало (не исказились закономерности), и неоднорность исчезла.

Все способы предварительной обработки данных еще будут рассмотрены более детально, поэтому рекомендую подписаться на получение новостей. В следующем выпуске расскажу еще что-нибудь интересное. До встречи на страницах блога statanaliz.info.

Поделиться в социальных сетях:
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •