Мода в статистике

Добрый день, уважаемые подписчики и посетители блога statanaliz.info.

Мы немало говорили о самом распространенном показателе в статистике – средней величине. Однако средняя величина – понятие растяжимое, а мы пока ограничилось только средней арифметической простой и взвешенной. Главное назначение средней величины заключается в том, что она обобщает некоторый набор данных, отражает его закономерный уровень, или, как говорят ученые, центральную тенденцию. Средняя величина при некоторых условиях способна одним значением охарактеризовать сразу всю совокупность данных.

В статистике есть целый набор показателей, которые характеризуют центральную тенденцию. Выбор того или иного индикатора в основном зависит от характера данных, целей расчетов и его свойств. Например, основное свойство средней арифметической заключается в том, что сумма всех отклонений от нее равна нулю. Отсюда сумму всех уровней можно легко найти путем перемножения средней арифметической и количества значений в совокупности. Это очень удобно и не требует перечисления всех исходных значений. Теперь о характере данных.

Что подразумевается под характером данных? Прежде всего, мы говорим о количественных данных, которые выражены в числах. Это понятно. Но набор числовых данных может иметь разное так называемое распределение. Под распределением понимаются частоты отдельных значений. К примеру, в классе из 23 (двадцати трех) человек 2 (два) школьника написали контрольную работу на двойку, 5 (пять) – на тройку, 10 (десять) – на четверку и 6 (шесть) – на пятерку. Вот это есть распределение оценок. Распределение очень наглядно можно представить с помощью специального графика – гистограммы. Для данного примера получится следующая гистограмма.

Распределение оценок

Очень наглядно, не правд ли? Правда, конечно. Лучше один раз увидеть график, чем сто раз прочитать набор чисел. Через глаза в мозг поступает 90% информации, и о визуализации данных я планирую сделать огромный специальный раздел на блоге. Следите за рекламой.

Если объем данных большой (сотня и более), а сами данные имеют случайный характер, то частоты значений во многих случаях будут распределены по т.н. нормальному закону (по крайней мере так утверждают многие учебники, что, признаться, сильно расходится с практикой). Этот закон, конечно, не нормативный акт, изданный правительством, а просто известная закономерность, которая наблюдается во многих явлениях и процессах и которая хорошо описана с помощью математических терминов и формул. Очень грубо суть закона нормального распределения случайных чисел заключается в том, что распределение частот отдельных значений имеет симметричный вид относительно некоторого центра, возле которого концентрируется большинство значений анализируемой совокупности, при этом частота отдаленных от центра значений резко снижается. Кажется, так.

С помощью графика-гистограммы также легко получить наглядное представление о нормальном распределении. На практике все виды графиков называют диаграммами, поэтому не будем сильно умничать. Суть одно и то же. Ниже приведена примерная иллюстрация нормального распределения случайных чисел.

Нормальное распределение чисел

По горизонтали обозначены конкретные значения, по вертикали – их частота в соответствии с нормальным законом распределения. Колоколообразная кривая, сформированная частотами, ранжированными по возрастанию, называется кривой нормального распределения или кривой Гаусса. Это был краткий экскурс в понятие нормального распределения. Оно нам понадобится для того, чтобы понять содержимое этой статьи.

Итак, центральная тенденция. Если частоты анализируемых значений распределены по нормальному закону, то есть симметрично вокруг некоторого центра, то центральная тенденция определяется вполне однозначно – это есть тот самый центр, и математически он соответствует средней арифметической.

Как нетрудно заметить, в этом же центре находится и максимальная частота значений. То есть при нормальном распределении центральная тенденция есть не только средняя арифметическая, но и максимальная частота, которая в статистике называется модой или модальным значением.

Мода и среднее арифметическое при нормальном распределении

На графике оба значения центральной тенденции совпадают и равны 10 (десяти) – по горизонтальной оси, а частота соответствует красному столбцу (самому высокому). Но это только при данном, симметричном, виде распределения частот.

Как нетрудно догадаться, подобная ситуация встречается не всегда, а при малом числе данных – совсем редко. Хотя до этого обычно никому нет дела. Чаще бывает так, что частоты распределяются асимметрично. Тогда мода и среднее арифметическое не будут совпадать.

Мода и среднее арифметическое не совпадают

При подобном варианте распределения среднее арифметическое по-прежнему составляет 10 (десять), а вот мода уже равна 9 (девяти). Что в таком случае считать значением центральной тенденции? Ответ зависит от поставленных целей анализа. Если нас интересует уровень, сумма отклонений от которого равна нулю со всеми вытекающим отсюда свойствами и последствиями, то это средняя арифметическая. Если нужно максимально частое значение, то это мода. Выбор на совести аналитика. Действительно, почему бы наибольшую частоту не считать главной характеристикой совокупности?

Итак, зачем нужна мода? Приведу пару примеров. Экономист планово-экономического отдела обувной фабрики интересуется, какой размер обуви пользуется наибольшим спросом. Средний размер обуви, скорее всего, здесь не подойдет, тем более, что число может получится дробным. А вот мода – как раз нужный показатель. Моду в дискретном ряду не рассчитывают, а выбирают из имеющихся данных.

Другой пример. При анализе доходов населения используют усредненные показатели. Для этого обычно рассчитывают среднюю арифметическую. Мол, средняя з/п (или доход) по стране такая-то. Однако этот показатель имеет свои нюансы и может некорректно отразить динамику благосостояния населения в целом и/или его большей части. Представим, что доходы основной части населения не изменились, а вот самые богатые вдруг неожиданно стали еще богаче. Как это отразиться на средней арифметической? Очевидно, что она увеличится. И, если о динамике доходов судить только по средней арифметической, то сложится впечатление, что благосостояние населения улучшилось. На самом деле население (основная часть) не стала богаче. Рост средней арифметической произошел за счет наращивания капитала относительно немногочисленной группы населения. Вывод при использовании только средней арифметической будет не корректным. А вот если привлечь модальное значение, то оно будет отражать уровень доходов наибольшего количества людей и не будет зависеть от дохода богатых. Таким образом, усредненный доход населения приобретет несколько другой окрас. Конечно, средний арифметический доход тоже имеет право на существование, но его правильная интерпретация требует соответствующего понимания. По телевизору и других СМИ вы таких тонкостей, к сожалению, не встретите. Тамошние аналитики обычно выполняют другую функцию. Борьба за рейтинги и поддержку населением «прогрессивных» идей имеет мало общего с просвещением. Таковы «свободные» СМИ.

Моду также привлекают для анализа различных технических экспериментов. В общем, мода – достаточно известный в аналитике показатель. Знать и понимать нужно в обязательном порядке. Хотя бы для того, чтобы правильно интерпретировать среднюю арифметическую.

Расчет моды

Теперь посмотрим, как рассчитать моду. Собственно, легко. Мода – это то значение в анализируемой совокупности данных, которое встречается чаще других, поэтому нужно посмотреть на частоты значений и отыскать максимальное из них. Например, в наборе данных 3, 4, 6, 7, 3, 5, 3, 4 модой будет значение 3 – повторяется чаще остальных. Это в дискретном ряду, и здесь все просто. Если данных много, то моду легче всего найти с помощью соответствующей гистограммы. Кстати правильный график часто говорит о данных гораздо больше любых расчетов. Бывает так, что на анализируемое явление влияет не один, а два фактора (или больше). На гистограмме этот факт может отлично проявиться. Не всегда, конечно, но может. В этом случае мод будет не одна, а две и/или больше. То есть максимальная частота останется одна, но появится и другой центр концентрации данных. Вот график.

Двумодальное распределение

Поди сообрази, не глядя на распределение, что здесь не один, а два центра. К примеру, на президентских выборах предпочтения сельских и городских жителей могут отличаться. Поэтому распределение доли отданных голосов за конкретного кандидата может быть «двугорбым». Первый «горб» – выбор городского населения, второй – сельского. Ну, это так, отвлеченный пример. Однако при появлении второй моды потребуется проведение группировки и отдельного анализа по каждой группе. Это дольше, но гораздо правильнее, чем смешать все в кучу и сделать неправильный вывод. В общем, определить моду в дискретном ряду достаточно просто – нужно только найти максимальную частоту.

Немного сложнее с интервальными данными, когда вместо конкретных значений имеются интервалы. В этом случае говорят о модальном интервале (при анализе доходов населения, например), то есть интервале, частота которого максимальна относительно других интервалов. Однако и здесь можно отыскать конкретное модальное значение, хотя оно будет условным и примерным, так как нет точных исходных данных. Есть некоторое общее правило, по которому рассчитывается мода в интервальных данных. Чтобы не загружать пока формулой, покажу суть расчета с помощью иллюстрации. Представим, что у нас есть набор данных, как в табличке ниже.

Интервальные данные для расчета моды

Для наглядности изобразим соответствующую диаграмму.

Рисунок распределения интервальных данных

Требуется найти модальное значение цены.

Вначале нужно определить модальный интервал, который соответствует интервалу с наибольшей частотой. Найти его так же легко, как и моду в дискретном ряду. В нашем примере это третий интервал с ценой от 301 до 400 руб. На графике – самый высокий столбец. Теперь нужно определить конкретное значение цены, которое соответствует максимальному количеству. Точно и по факту сделать это невозможно, так как нет индивидуальных значений частот для каждой цены. Поэтому делается некоторое общепринятое допущение о том, что интервалы выше и ниже модального в зависимости от своей частоты имеют разные вес и как бы перетягивают моду в свою сторону. Если частота интервала следующего за модальным больше, чем частота интервала перед модальным, то мода будет правее середины модального интервала и наоборот. Давайте еще раз посмотрим на рисунок, чтобы понять формулу, которую я напишу чуть ниже.

Мода на рисунке

На рисунке отчетливо видно, что соотношение высоты столбцов, расположенных слева и справа от модального определяет близость моды к левому или правому краю модального интервала. Задача по расчету модального значения состоит в том, чтобы найти точку пересечения линий, соединяющих модальный столбец с соседними (как показано на рисунке пунктирными линиями) и нахождении соответствующего значения признака (в нашем примере цены). Зная основы геометрии (7-й класс), по данному рисунку нетрудно вывести формулу расчета моды в интервальном ряду.

Формула моды имеет следующий вид.

Формула моды

Где Мо – мода,

x0 – значение начала модального интервала,

h – размер модального интервала,

fМо – частота модального интервала,

fМо-1 – частота интервала, находящего перед модальным,

fМо1 – частота интервала, находящего после модального.

Второе слагаемое формулы моды соответствует длине красной линии на рисунке выше.

Рассчитаем моду для нашего примера.

Расчет моды

Таким образом, мода интервального ряда представляет собой сумму, состоящую из значения начального уровня модального интервала и отрезка, который определяется соотношением частоты ближайших интервалов от модального. Вот такие пироги.

Расчет моды в Excel

В настоящее время большинство вычислений делается в MS Excel, где для расчета моды также предусмотрена специальная функция. В Excel 2013 я таких нашел ажно 3 (три) штуки.

Мода в Excel

Формула МОДА – пережиток старых изданий Excel. Функция оставлена для совмещения со старыми версиями.

Формула МОДА.ОДН – рассчитывает моду по заданным значениям. Здесь все просто. Вставили функцию, указали диапазон данных и «Ок».

Формула МОДА.НСК – позволяет рассчитать сразу несколько модальных значений (одинаковых максимальных частот) для одного ряда данных, если они есть. Функцию нужно вводить как формулу массива, перед этим выделив количество ячеек равное количеству требуемых модальных значений. Иногда действительно модальных значений может быть несколько. Однако для этих целей предварительно лучше посмотреть на диаграмму распределения. Пример использования формулы МОДА.НСК смотрите на видео ниже.

Моду для интервальных данных одной функцией в Excel рассчитать нельзя. То есть такая функция в готовом виде не предусмотрена. Придется прописывать вручную. Но, учитывая редкость данного показателя, это не страшно.

В нижеследующем окошке можно просмотреть видеофильм о статистическом показателе мода. В нем я рассказываю об отличии моды от средней арифметической, привожу вывод формулы моды для интервальных данных, а также показываю, как рассчитать моду в Excel. Один из первых моих роликов, не судите строго ))).

Следующая статья будет посвящена медиане.

До встречи на statanaliz.info.

Поделиться в социальных сетях:
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •