Стандартное нормальное распределение

Продолжаем разговор о нормальном распределении случайной величины. Любое теоретические распределение является своеобразным эталоном частот для различных значений. В случае близкой схожести эмпирического и теоретического распределений, к первым можно применить свойства вторых. Это позволит по реальным данным получать ответы на такие вопросы как: каковы шансы попасть в тот или иной интервал, какова вероятность, что в результате эксперимента случайная величина окажется больше (меньше) заданного уровня и т.д. и т.п.

Как же выглядит эталонное нормальное распределение, если даже в теории оно зависит от двух параметров (математического ожидания и дисперсии)? Понятно, что при анализе выборки есть только оценки этих параметров (средняя арифметическая и выборочная дисперсия), но это не отменяет того факта, что нормальное распределение обладает некоторым масштабом, характерным для конкретных данных. Эталон же должен быть универсальным и не зависеть от масштаба и единиц измерения. И он, конечно же, существует. Называется стандартным нормальным распределением. От обычного отличается тем, что его математическое ожидание всегда равно 0, а дисперсия – 1, кратко N(0, 1).

Для того, чтобы воспользоваться теоретическими вероятностями, масштаб реальных данных нужно «подогнать» под эталон. Делается с помощью процедуры нормирования:

Нормирование

где z – новая переменная, которая используется вместо x;
m – математическое ожидание;
σ – стандартное отклонение.

Для выборочных данных берутся оценки:

Нормирование по оценкам параметров

Среднее арифметическое и дисперсия новой переменной z теперь также равны 0 и 1 соответственно. В этом легко убедиться с помощью элементарных алгебраических преобразований.

В литературе встречается название z-оценка. Это оно самое – нормированные данные. Z-оценку можно напрямую сравнивать с теоретическими вероятностями, т.к. ее масштаб совпадает с эталоном.

Посмотрим теперь, как выглядит плотность стандартного нормального распределения (для z-оценок). Напомню, что функция Гаусса имеет вид:

Функция Гаусса

Подставим вместо (x-m)/σ букву z, а вместо σ – единицу, получим функцию плотности стандартного нормального распределения:

Плотность стандартного нормального распределения

Соответствующий рисунок ниже:

График плотности стандартного нормального распределения

Центр, как и ожидалось, находится в точке 0. В этой же точке функция Гаусса достигает своего максимума, что соответствует принятию случайной величиной своего среднего значения (т.е. x-m=0). Плотность в этой точке равна 0,3989, что можно посчитать даже в уме, т.к. e0=1 и остается рассчитать только соотношение 1 на корень из 2 пи.

Таким образом, по графику хорошо видно, что значения, имеющие маленькие отклонения от средней, выпадают чаще других, а те, которые сильно отдалены от центра, встречаются значительно реже. Шкала оси абсцисс измеряется в стандартных отклонениях, что позволяет отвязаться от единиц измерения и получить универсальную структуру нормального распределения. Кривая Гаусса для нормированных данных отлично демонстрирует и другие свойства нормального распределения. Например, то, что оно является симметричным относительно оси ординат. Все это здорово облегчает подсчет нужных вероятностей. Так, в пределах ±1σ от средней арифметической сконцентрирована большая часть всех значений (прикидываем пока на глазок). В пределах ±2σ находятся почти все значения, а за ±3σ вообще мало что выпадает. Такое распределение вероятностей лежит в основе многих статистических методов, в частности, в проверке статистических гипотез.

Сразу стоит отметить, что формула нормирования, приводящая к масштабу N(0, 1) вносит коррективы в интерпретацию случайной величины. Теперь случайное значение – это не просто наблюдаемая величина (размер чего-нибудь, например), а отклонение от средней арифметической, измеряемое в стандартных отклонениях. Поэтому вопросы относительно вероятностей имеют следующую формулировку. Например, какова вероятность того, что случайная величина z отклонится от средней (которая 0) не более, чем на 2 (стандартных отклонения). И если данные действительно имеют подобное распределение, то ответ на этот вопрос всегда одинаков – 95,45%. То бишь в пределах ±2 сигмы от средней арифметической находится 95% всей совокупности нормально распределенных данных. Отсюда следует простой вывод, что вероятность отклонения за эти пределы относительно маленькая, всего 5%. Или наоборот – целых 5%. Все зависит от поставленной задачи.

Рассмотрим теперь функцию стандартного нормального распределения, т.к. именно она позволяет рассчитывать интересующие вероятности. Для этого, напоминаю, нужно взять интеграл:

Функция стандартного нормального распределения

Подставляя в это уравнение интересующие значения z, можно рассчитать вероятность того, что нормально распределенная случайная величина окажется менее этого z. Другие интервалы можно легко получить, используя свойство непрерывного распределения.

Обычная функция нормального распределения с параметрами m и σ и функция стандартного нормального распределения удовлетворяют равенству:

Обычное и стандартное нормальное распределение

Поэтому имея только реальные данные довольно легко перейти вначале к z-оценкам, а затем уже к вычислению интересующих вероятностей с помощью функции N(0, 1).

Прежде, чем перейти к графику функции распределения, предлагаю еще раз посмотреть, как на графике плотности изображается вероятность. Она соответствует площади левого «хвоста» под плотностью распределения:

Функция на графике плотности - это левый "хвост"

Например, для z=0 значение функции нормального распределения равно 0,5 (половина от всей площади). На словах это значит, что вероятность принятия случайной величиной значения больше или меньше математического ожидания одинакова. Оно и не удивительно, т.к. плотность симметрична в правую и левую сторону от оси ординат. Это же значение легко увидеть на графике функции стандартного нормального распределения – оно делит функцию пополам в отметке 0,5 по оси ординат (максимальное значение любой функции распределения равно 1):

График функции стандартного нормального распределения

Понятно, что вероятности могут быть самыми разными от 0 до 1. И визуально провести расчет, как мы это сделали для z=0 не получится. Для точного определения вероятностей (значения функции стандартного нормального распределения) придется уже брать интеграл, что не такое уж и тривиальное дело. Однако умные люди все давно подсчитали и результаты занесли в специальные таблицы. Такие таблицы есть в любом учебнике по теории вероятностей или статистике. Никаких интегралов брать не нужно, достаточно понимать, как подсчитаны вероятности. Можно поступить еще проще: воспользоваться специальными функциями Excel.

Из данной статьи главное уяснить, что стандартное нормальное распределение – это нормальное распределение с параметрами 0 и 1 для матожидания и дисперсии соответственно. Оно нужно для того, чтобы закономерности нормального распределения привязать к универсальным единицам измерения случайной величины – стандартным отклонениям.

На сегодня все. Всех благ и до новых встреч.

Поделиться в социальных сетях:
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  • Дмитрий

    Самое понятное из того, что нашел!

  • Olga Lo

    Здравствуйте, Дмитрий! А что такое t, напомните, пожалуйста.

    • Езепов Дмитрий

      Где именно? Уточните, пожалуйста.

    • Алексей

      Ольга, в данной статье t используется в формуле интеграла просто как переменная, по которой производится интегрирование. При подсчёте интеграла t непрерывно уменьшается от z до минус бесконечности. Если бы мы захотели провести такой подсчёт в реальности, то мы, конечно, не смогли бы изменять переменную непрерывно, и не смогли бы делать это до бесконечности. Но мы точно так же начали бы от t, равного z, и просто уменьшали бы её на некоторую маленькую величину dt (чем меньше, тем точнее получим результат), вместо интегрирования просто суммируя экспоненту от половины t в квадрате, умноженную на dt. И это можно делать не до бесконечности, а до того момента, когда очередное слагаемое станет очень маленьким (и уже не будет влиять на нужную нам точность). В данном случае, как хорошо видно по графику, функция довольно быстро сходится к нулю: уже при t=-4 вполне можно остановиться (но если нужен ещё более точный результат, то можно и продолжить).