Нормальный закон распределения — введение

В статистике используются различные законы распределения случайных величин. Но один из них по своей известности находится очень далеко от ближайших конкурентов. Это закон нормального распределения. Нормальный закон, как и другие теоретические распределения, не является фиксированным уравнением зависимости одной переменной от другой. Фиксируется только характер этой зависимости. А вот конкретная форма распределения задается специальными параметрами.

Например, всем понятно выражение типа у = аx + b – это уравнение прямой. Однако где конкретно она проходит и под каким наклоном, определяется параметрами а и b. Без заданных параметров невозможно четко представить эту линию. Также и с нормальным распределением. Ясно, что это функция, которая описывает тенденцию высокой концентрации значений около центра, но ее точная форма задается специальными параметрами, которые «подгоняют» модель под реальные данные.

Нормальный закон в теории статистики имеет фундаментальное значение. Он также лежит в основе ряда других распределений, поэтому ухватить самую суть желательно сразу. Начнем с истории. Рассказываю, как сам слышал. Возможно, где-то перепутаю века, царей или континенты. В общем, я ни разу не историк.

Краткая история открытия нормального закона

История нормального закона насчитывает уже почти 300 лет. Первым открывателем стал Абрахам де Муавр, который придумал теоретическое приближение биномиального распределения при большом количестве наблюдений еще в далеком 1733 году. Однако широкое признание нормальный закон получил намного позже благодаря анализу выборочных данных.

Известно, что результаты выборочного исследования всегда ошибочны относительно истинного значения, которое исследователь и пытается оценить с помощью выборки. Если провести несколько измерений, то все они, скорее всего, будут отличаться друг от друга и, соответственно, от оцениваемого показателя по генеральной совокупности.

Вариация данных не способствует решению проблемы. Например, астрономы, проводя одни и те же наблюдения за небесными телами, все время получали различные результаты. Поначалу они думали, что причиной является небрежность измерения и старались этот факт не сильно афишировать. Однако вопрос не давал покоя пытливым умам тогдашних математиков. Как же быть с тем обстоятельством, что фактически нет возможности получить однозначный результат измерений? Что делать? Куда бежать? И какой из этого следует вывод?

И вот, эволюция мысли докатилась до того, что в светлую голову гражданина по имени Даниил Бернулли пришла замечательная мысль: разброс данных у самых различных явлений имеет что-то общее.  Он сравнил разброс отклонений в астрономических наблюдениях с разбросом попаданий лучника в мишень и обнаружил, что и там и там максимальная концентрация результатов приходится на область относительно близкую к среднему значению, в то время как большие отклонения наблюдаются гораздо реже. Даниил Бернулли даже придумал специальную математическую формулу, однако она оказалась неверной. Кстати, этот Даниил был племянником другого Бернулли по имени Якоб. Того самого, который придумал закон больших чисел и процесс своего имени (когда в эксперименте возможны только два исхода).

Тем не менее, идея об универсальном распределении ошибок измерений не осталась не замеченной, и немного позже другие ученые все-таки сформулировали правильный закон о случайных отклонениях. К открытию стали причастны Карл Фридрих Гаусс и Пьер-Симон Лаплас.

Гаусс вывел закон о распределении ошибок, чем и увековечил память о себе названием соответствующей функции (1809 г.). Чуть позже (в 1812 г.) П. Лаплас вывел интеграл, который сегодня известен как функция нормального распределения.

Лаплас также обнаружил замечательную закономерность и сформулировал центральную предельную теорему (ЦПТ), согласно которой сумма большого количества малых и независимых величин имеет нормальное распределение. Центральная предельная теорема далее многократно уточнялась и видоизменялась, но суть ее осталась прежней. Таким образом, история открытия нормального закона насчитывает более 200 лет. Начиная от открытия Муавра, до окончательных формулировок ЦПТ в середине 20-го века.

Закон нормального распределения

Прежде чем погружаться в мир формул, крайне важно получить наглядное представление о предмете. Поэтому предлагаю начать с рисунка, с помощью которого далее будут изложены основные сведения о нормальном законе. Итак, функция плотности нормального распределения, она же функция Гаусса, имеет следующий вид.

График плотности нормального распределения

Кривая Гаусса по форме несколько напоминает колокол, поэтому график нормального закона еще называют колоколообразной кривой. Как видно, у графика имеется «горб» в середине и резкое снижение плотности по краям. В этом заключается суть нормального распределения. Вероятность того, что случайная величина окажется около центра гораздо выше, чем то, что она сильно отклонится от середины.

Различные вероятности у нормально распределенных данных

На рисунке выше изображены два участка под кривой Гаусса: синий и зеленый. Основания, т.е. интервалы, у обоих участков равны. Но заметно отличаются высоты. Синий участок удален от центра, и имеет существенно меньшую высоту, чем зеленый, который находится в самом центре распределения. Следовательно, отличаются и площади, то бишь вероятности попадания в обозначенные интервалы.

Теперь посмотрим на формулу, по которой нарисована колоколообразная кривая, т.е. на функцию Гаусса.

Функция Гаусса

Выглядит немного пугающе, но сейчас разберемся. В функции плотности нормального распределения присутствует: две математические константы

π – соотношение длины окружности и его диаметра, равно примерно 3,142;

е – основание натурального логарифма, равно примерно 2,718;

два параметра, которые задают форму конкретной кривой:

m — математическое ожидание (в различных источниках могут использоваться другие обозначения, например, µ или a);

σ2 — дисперсия;

ну и сама переменная x, для которой высчитывается значение функции, т.е. плотность вероятности.

Константы, понятное дело, не меняются. Зато параметры — это то, что придает окончательный вид конкретному нормальному распределению. Отсюда и название: параметрическая функция или семейство параметрических функций.

Итак, конкретная форма нормального распределения зависит от 2-х параметров: математического ожидания (m) и дисперсии (σ2). Кратко обозначается N(m, σ2) или N(m, σ). Параметр m (матожидание) определяет центр распределения, которому соответствует максимальная высота графика. Дисперсия σ2 характеризует размах вариации, то есть «размазанность» данных.

Параметр математического ожидания смещает центр распределения вправо или влево, не влияя на саму форму кривой плотности, что хорошо видно на самодвижущейся картинке.

Влияние матожидания на нормальное распределение

А вот дисперсия определяет остроконечность кривой. Когда данные имеют малый разброс, то вся их масса сконцентрирована у центра. Если же у данных большой разброс, то они «размазываются» по широкому диапазону.

Влияние сигмы на нормальное распределение

Плотность нормального распределения не имеет прямого практического применения. Вероятность того, что случайная величина окажется меньше некоторого значения x, определяется функцией нормального распределения:

Функция нормального распределения
Используя свойство непрерывного распределения, несложно рассчитать и любые другие вероятности, так как

P(a ≤ X < b) = Ф(b) – Ф(a)

Поэтому можно выбрать интересующий интервал и вычислить вероятность получить случайную величину из этого интервала.

Таковы основные понятия, которые дают представление о нормальном законе распределения. Нормальный закон в классической теории статистики является чуть ли не основной основ.

Всего доброго и до новых встреч.

Поделиться в социальных сетях:
  • 2
  •  
  •  
  •  
  •  
  • 2
  •  
  •  
  •  
    4
    Shares