Расчет и свойства дисперсии случайной величины

Здравствуйте, дорогие читатели и случайные посетители блога statanaliz.info. Сегодня мы возвращаемся к основному показателю вариации данных – дисперсии. Напомню, что понятие дисперсии было рассмотрено здесь, по выборке – здесь, как рассчитать в Excel – тут. Однако на этом тема не заканчивается. У дисперсии есть различные полезные свойства, с которыми мы и познакомимся в данной заметке.

Дисперсия используется в самых разных формулах и методах анализа. Чтобы хорошо понимать глубинный смысл тех или иных формул, очень неплохо знать, как они образованы. Тогда и анализ данных будет гораздо интереснее и понятнее.

Итак, формула дисперсии имеет следующий вид:

Формула дисперсии

Обозначения прежние:

D – дисперсия,

x – анализируемый показатель, с чертой сверху – среднее значение показателя,

n – количество значений в анализируемой совокупности данных.

Собственно, этот вид формулы напрямую отражает ее суть – средний квадрат отклонений. Но что здесь полезно отметить. В те времена, когда люди еще не имели ПЭВМ, расчеты приходилось делать на листе бумаги или в уме. Дело, конечно, полезное – мозги развивает, но не сильно способствует скорости и точности. Тем не менее, и сегодня можно столкнуться с необходимостью ручных расчетов и манипуляцией с формулой. В этом случае формулу дисперсии удобно представить в другом виде:

Второй вариант расчета дисперсии

То есть как разницу между средним квадратом и квадратом средней исходных значений. Здесь нет непосредственно отклонений от средней арифметической, что делает формулу значительно проще. Убедимся, что обе формулы расчета дисперсии идентичны. Для этого запишем еще раз первоначальный вид.

Формула дисперсии

Теперь, раскроем скобки.

Раскроем скобки

Т.к. средняя арифметическая для заданного набора данных является величиной постоянной, то для удвоенного произведения можно применить свойство 2 математического ожидания:

Преобразование

Разделим каждое слагаемое числителя на n.

Разделим на n

Последний штрих.

Второй способ расчета дисперсии

Все сошлось.

Предлагаю запомнить такую форму записи. Обязательно пригодиться.

Дисперсия взвешенная

В предыдущих публикациях ничего не было сказано о том, что по аналогии со средней арифметической дисперсия может быть простой и взвешенной. До сих пор мы рассматривали только простую дисперсию. Но если исходные данные сгруппированы, то веса нужны не только для расчета средней арифметической взвешенной, но и для расчета дисперсии:

Дисперсия взвешенная

где f –веса (количество значений в группе).

Извлекая квадратный корень, получим взвешенное среднеквадратическое отклонение. Как и со средней арифметической, простую дисперсию можно считать частным случаем взвешенной, когда все веса равны единице.

Ничего сложного здесь нет – в числителе по-прежнему берется сумма всех отклонений, а не только уникальных, а в знаменателе – количество всех наблюдений, даже тех, которые повторяются.

Физический смысл дисперсии

{module 111}

Малоопытному аналитику часто трудно осознать, как наглядно представить дисперсию. Вот средняя – понятно, что-то в середине. Например, центр масс на рисунке из предыдущей статьи. На этом же рисунке можно рассмотреть и физический смысл дисперсии. Напомню, что мы берем спицу с нанизанными грузиками. Среднее арифметическое из расстояний от начала спицы до каждого из грузиков будет соответствовать точке равновесия. Однако есть еще одна важная физическая характеристика такой системы – момент инерции.

Наподобие того, как масса тела характеризует его инертность в поступательном движении, момент инерции имеет похожий смысл во вращательном движении. Например, автомобиль из-за своей массы (инертности) не может остановиться мгновенно (разве что во время краш-теста). Точно так трудно мгновенно остановить качели с людьми (типа лодочка в парке культуры и отдыха). Случай с автомобилем – поступательное движение, с качелями – вращательное. В отличие от инерции в поступательном движении момент инерции зависит не только от массы, но еще и от расстояния массы до точки вращения. Чем дальше тело от точки вращения, тем большим моментом инерции оно обладает. Длинное топорище позволят рубить дерево гораздо эффективнее, чем короткое. Вернемся к нашей картинке с грузиками на спице и добавим в нее несколько пояснений.

Физический смысл дисперсии

В такой системе момент инерции равен сумме произведений квадратов расстояний каждого грузика до точки равновесия и соответствующих масс. Формула момента инерции имеет следующий вид:

Момент инерции

где m – масса отдельного грузика

Нетрудно заметить, расстояние грузиков до центра является одновременно и отклонением от средней. Масса грузиков в этом случае соответствует весу отклонения (в статистическом смысле). Отсюда легко увидеть, что момент инерции уравновешенной системы – это числитель дисперсии расстояний грузиков до центра масс. Чем дальше грузики от центра, тем больше момент инерции и, соответственно, дисперсия.

Свойства дисперсии

Как я уже не раз упоминал, сама по себе дисперсия – показатель малоинформативный. Дисперсию всегда с чем-то сравнивают и используются в других формулах. Отсюда очень важно знать ее математические свойства. Нижеследующее рекомендую прочитать вдумчиво и по возможности запомнить.

Для большей наглядности обозначим дисперсию как D(X).

Свойство 1. Дисперсия постоянной величины A равна 0 (нулю).

D(A) = 0.

Оно и не удивительно – у постоянной величины нет отклонений.

Свойство 2. Если случайную величину умножить на постоянную А, то дисперсия этой случайной величины увеличится в А2 раз. Другими словами, постоянный множитель можно вынести за знак дисперсии, возведя его в квадрат.

D(AX) = А2 D(X).

Данное свойство вполне очевидно, если вспомнить, что при расчете дисперсии отклонения от средней возводятся в квадрат.

Свойство 3. Если к случайной величине добавить (или отнять) постоянную А, то дисперсия останется неизменной.

D(A+X) = D(X).

Это свойство также вполне понятно, т.к. все значения и их среднее увеличиваются на одну и ту же величину, и при взятии их разностей, величина А просто сокращается.

Свойство 4. Если случайные величины X и Y независимы, то дисперсия их суммы равна сумме их дисперсий.

D(X+Y) = D(X) + D(Y).

Учитывая второй способ расчета дисперсии (см. выше), а также свойство 1 и свойство 4 математического ожидания, выводится довольно просто:

D(X+Y) = M(X+Y)— (M(X+Y))= M(X)+ 2M(XY) + M(Y)— (M(X))— 2M(XY) — (M(Y))=

M(X)— (M(X))+ M(Y)— (M(Y))= D(X) + D(Y). Ч. т. д.

Свойство 5. Если случайные величины X и Y независимы, то дисперсия их разницы также равна сумме дисперсий.

D(X-Y) = D(X) + D(Y).

Здесь учитывается то, что дисперсия всегда положительна (все отклонения от средней возводятся в квадрат).

На этой радостной ноте и закончим заметку.

Всех благ. Приходите еще и приводите своих друзей.

Поделиться в социальных сетях:
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •