Нормальный закон распределения — введение

Приветствую дорогих читателей и подписчиков блога statanaliz.info. Продолжаем разговор о распределении данных. Как мы знаем, распределение может быть эмпирическим и теоретическим. Эмпирические данные всегда ограничены своей точностью и охватом возможных ситуаций. Поэтому для расчета интересующих вероятностей, пределов отклонений, размеров выборок и т.д. используют теоретические модели распределения случайной величины.

Самая известная статистическо-вероятностная модель – это закон нормального распределения. Нормальный закон, как и другие теоретические распределения, не является фиксированным уравнением зависимости одной переменной от другой. Фиксируется только характер этой зависимости. А вот конкретная форма распределения задается специальными параметрами в этом уравнении.

Например, всем понятно выражение типа у = аx + b – это уравнение прямой. Однако где конкретно она проходит и под каким наклоном, определяется параметрами а и b. Без заданных параметров невозможно четко представить эту линию. Также и с нормальным распределением. Ясно, что это функция, которая описывает тенденцию высокой концентрации значений около центра, но ее точная форма задается специальными параметрами, которые «подгоняют» модель под реальные данные.

Нормальный закон в теории статистики имеет фундаментальное значение. Он также лежит в основе ряда других распределений, поэтому ухватить самую суть желательно сразу. Вначале, возможно, будет слегка мутновато, но потом станет значительно легче, обещаю. Фактически после знакомства с нормальным распределением откроются новые горизонты использования статистических методов. Кстати, собственное логическое мышление под действием статистики также начинает деформироваться, в результате чего, общение с творческими личностями превращается в испытание. Ну да ладно.

Начнем с истории. Рассказываю, как сам слышал. Возможно, где-то перепутаю века, царей или континенты. В общем, я ни разу не историк.

Краткая история открытия нормального закона

История нормального закона насчитывает уже почти 300 лет. Говорят, первым причастным к открытию стал гражданин Абрахам де Муавр, который зафиксировал свои соображения по этому поводу в далеком 1733 году. Речь тогда шла о теоретическом приближении биномиального распределения при большом количестве наблюдений. Однако труды математика не были оценены по достоинству и Абрахама несправедливо забывают, когда речь идет об открытии нормального распределения. Широкое признание нормальный закон получил благодаря анализу выборочных данных.

Сейчас всем известно, что результаты выборочного исследования всегда ошибочны относительно истинного значения, которое исследователь и пытается оценить с помощью выборки. Если провести несколько измерений, то все они, скорее всего, будут отличаться друг от друга и, соответственно, от оцениваемого показателя по генеральной совокупности.

Статистика – наука исключительно практическая. Точность выводов здесь не пустой звук, а одна из насущных задач. В то же время вариация данных не способствует решению проблемы. Например, астрономы, проводя одни и те же наблюдения за небесными телами, все время получали различные результаты. Поначалу они считали, что всему виной их собственная небрежность и старались этот факт не сильно афишировать. Однако вопрос о постоянных отклонениях торчал занозой в ученом месте и не давал покоя пытливым умам тогдашних математиков. Как же быть с тем обстоятельством, что фактически нет возможности получить однозначный результат измерений? Что делать? Куда бежать? И какой из этого следует вывод? (последний вопрос от Ослика Иа).

И вот, эволюция мысли докатилась до того, что в светлую голову гражданина по имени Даниил Бернулли пришла замечательная мысль: разброс данных у самых различных явлений имеет что-то общее. Так, он сравнил разброс отклонений в астрономических наблюдениях с разбросом попаданий лучника в мишень и обнаружил, что и там и там максимальная концентрация результатов приходится на область относительно близкую к среднему значению, в то время как значительные отклонения происходят гораздо реже. Даниил подумал: а с чего бы это? И развивая успех, предложил соответствующий математический закон. Однако на этот раз ему не фартануло – закон оказался неверным. Кстати, этот Даниил был племянником другого Бернулли по имени Якоб. Того самого, который придумал закон больших чисел и процесс своего имени (когда в некотором эксперименте имеют место только два возможных исхода: благоприятный и неблагоприятный).

Тем не менее, идея об универсальном распределении ошибок измерений не осталась не замеченной, и немного позже другие ученые все-таки сформулировали правильный закон о случайных отклонениях. К открытию стали причастны Карл Фридрих Гаусс и Пьер-Симон Лаплас.

Гаусс вывел закон о распределении ошибок, чем и увековечил память о себе названием соответствующей функции (1809 г.). Чуть позже (в 1812 г.) П. Лаплас получил интеграл, который сегодня известен как функция нормального распределения.

Лаплас также обнаружил замечательную закономерность и сформулировал центральную предельную теорему (ЦПТ), согласно которой сумма большого количества малых и независимых величин имеет нормальное распределение. Центральная предельная теорема далее многократно уточнялась и видоизменялась, но суть ее осталась прежней. Таким образом, история открытия нормального закона насчитывает более 200 лет. Начиная от открытия Муавра, до окончательных формулировок ЦПТ в середине 20-го века. На сегодня мы имеем довольно развитый математический аппарат для анализа нормально распределенных данных.

На всякий случай еще раз отмечу, что приведенная выше история – это фривольный пересказ того, что я читал. Для серьезного изучения вопроса лучше обратиться к специализированной литературе.

Закон нормального распределения

Прежде чем погружаться в мир формул, крайне важно получить наглядное представление о предмете. Поэтому предлагаю начать с рисунка, с помощью которого далее будут изложены основные сведения о нормальном законе. Итак, функция плотности нормального распределения, она же функция Гаусса, имеет следующий вид.

График плотности нормального распределения

Кривая Гаусса по форме несколько напоминает колокол, поэтому график нормального закона часто еще называют колоколообразной кривой. Если вдруг увидите термин «колоколообразная кривая», знайте, что речь идет о нормальном распределении.

Как видно, у графика имеется «горб» в середине и резкое снижение плотности по краям. В этом заключается суть нормального распределения. Другими словами, вероятность того, что случайная величина окажется около центра гораздо выше, чем то, что она сильно отклонится от середины. Смотрим на картинку.

Различные вероятности у нормально распределенных данных

На рисунке выше изображены два участка под кривой Гаусса: синий и зеленый. Основания, т.е. интервалы, у обоих участков равны. Но заметно отличаются высоты. Синий участок удален от центра, и имеет существенно меньшую высоту, чем зеленый, который находится в самом центре распределения. Следовательно, отличаются и площади, то бишь вероятности попадания в обозначенные интервалы.

Теперь посмотрим на формулу, по которой нарисована колоколообразная кривая, т.е. на функцию Гаусса.

Функция Гаусса

Выглядит немного пугающе, но сейчас разберемся. В функции плотности нормального распределения присутствует: две математические константы

π – соотношение длины окружности и его диаметра, равно примерно 3,142;

е – основание натурального логарифма, равно примерно 2,718;

два параметра, которые задают форму конкретной кривой

m — математическое ожидание (в различных источниках могут использоваться другие обозначения, например, µ или a);

σ2 — дисперсия;

ну и сама переменная x, для которой высчитывается значение функции, т.е. плотность вероятности.

Константы, понятное дело, не меняются. Зато параметры — это то, что придает окончательный вид конкретному нормальному распределению. Отсюда и название: параметрическая функция или семейство параметрических функций. Напомню, есть и другие теоретические распределения, но мы сейчас говорим о нормальном.

Итак, конкретная форма нормального распределения зависит от 2-х параметров: математического ожидания (m) и дисперсии (σ2). Кратко обозначается N(m, σ2) или N(m, σ). Параметр m (матожидание) определяет центр распределения, которому соответствует максимальная высота графика. Дисперсия σ2 характеризует размах вариации, то есть «размазанность» данных.

Параметр математического ожидания смещает центр распределения вправо или влево, не влияя на саму форму кривой плотности, что хорошо видно на самодвижущейся картинке.

Влияние матожидания на нормальное распределение

А вот дисперсия определяет остроконечность кривой. Когда данные имеют малый разброс, то вся их масса сконцентрирована у центра. Если же у данных большой разброс, то они «размажутся» по широкому диапазону.

Влияние сигмы на нормальное распределение

Плотность нормального распределения не имеет прямого практического применения (если не считать приближенных расчетов при использовании биномиального распределения). Вероятность того, что случайная величина окажется меньше некоторого значения x, определяется функцией нормального распределения:

Функция нормального распределения
Используя свойство непрерывного распределения, несложно рассчитать и любые другие вероятности, так как

P(a ≤ X < b) = Ф(b) – Ф(a)

Поэтому можно выбрать интересующий интервал и вычислить вероятность того, что случайная величина в него попадет.

Таковы основные понятия, которые дают представление о нормальном законе распределения. Нормальный закон в классической теории статистики является чуть ли не основной основ. Поэтому впереди еще ряд заметок, продолжающих начатую тему.

Всего доброго и до новых встреч.

Поделиться в социальных сетях:
  • 2
  •  
  •  
  •  
  •  
  • 2
  •  
  •  
  •  
    4
    Shares