О распределении случайных величин

Приветствую, дорогие читатели!

В данной заметке познакомимся с важнейшей характеристикой вариации данных – распределением. Вспомним, что вариация данных – это их разброс по некоторой шкале измерения. Для определения меры разброса используются специальные показатели: размах вариации, дисперсия и др. Однако эти показатели характеризуют лишь степень рассеяния, никак не отражая структуру, то есть частоту появления отдельных возможных значений. Строго говоря, данное понятие должно иметь следующую формулировку: распределение частот по соответствующим значениям. Но обычно говорят короче: распределение.

Таким образом, первая характеристика вариации данных – это степень разброса, которая измеряется показателями вариации, вторая – распределение частот, отражающая структуру или форму этого разброса.

Рассмотрим пример, чтобы уяснить всю значимость информации о распределении данных. При броске двух игральных костей могут выпадать суммы от 2 до 12. Размах вариации равен 10. Вроде, все понятно. Однако, ситуация в корне меняется, если принять во внимание, что сумма 7 выпадает в среднем в каждом шестом броске (6 различных способов из 36 возможных вариантов), а, например, 2 или 12 только в каждом тридцать шестом (один способ из 36 вариантов). Если играть на деньги, помнить об этом не будет лишним. Другими словами, различные суммы выпадают со своими частотами. Данный факт и фиксирует распределение вероятностей.

Что это дает? Очень многое. К примеру, информация о распределении активно используется в прогнозировании. Мы не можем угадать каждое значение, но, зная закон распределения, можно хорошо предсказать, где будет находиться большинство значений, а где меньшинство. Соответственно распределяются и шансы на угадывание. Если знать только то, что диапазон выпадения чисел находится между 2 и 12, то делать прогнозы – дело неблагодарное. А вот если учесть, что каждая сумма имеет свою вероятность, то прогноз начинает сбываться чаще. Как уже сказано, наиболее ожидаемое значение – 7, выпадает с вероятностью 6/36. Чуть меньше шансов у 6 и 8 – вероятность выпадения одинаковая – по 5/36, далее 5 и 9 – по 4/36 и т.д. меньше всего шансов у 2 и 12 – 1 из 36. Каждое значение – случайность, но его вероятность (частота появления при многократном повторении эксперимента) уже закономерность.

Распределения бывают дискретными и непрерывными. Рассмотрим их в отдельности.

Дискретное распределение

Пример с игральными костями – это дискретное распределение, т.к. существует ограниченный набор данных с соответствующими вероятностями. Результаты различных измерений также дают дискретное распределение, т.к. даже самые точные приборы имеют шкалу, по которой измеряемые данные округляются до некоторой точности и, соответственно, имеют ограниченный набор возможных значений.

Для математического описания дискретного распределения используют следующие формулировки и обозначения.

Вероятность – значение от 0 до 1, к которому стремится наблюдаемая частота при бесконечно большой выборке или повторении эксперимента. Обозначается буковой P. Вероятность события А – P(A), события B — P(B) и т.д. Вероятность появления некоторого случайного числа обозначается P(X), где X – некоторое число. Так, вероятность того, что при бросании двух костей выпадет 2 очка, обозначается P(2)=1/36, вероятность, 3-х очков – P(3)=1/18, 7-ми очков P(7)=1/6 и т.д. Оформим перечень возможных значений бросания двух игральных костей и их вероятностей в виде таблички.

Вероятности сумм

Очевидно, что сумма всех вероятностей равна 1, т.к. достоверно известно, что кубики упадут на одну из сторон.

Сумма вероятностей равно 1

А вот вероятность того, что кубики зависнут в воздухе, равна 0, и такое элементарное событие не отражено в таблице.

График нагляднее демонстрирует содержимое таблицы.

График распределения частот для двух игральных костей

Распределение вероятностей в нашем примере имеет симметричную форму относительно среднего значения, равного 7.

Однако набор отдельных вероятностей не позволяет проявиться закону распределения во всей красе. Для полноты картины о распределении данных, а также для решения практических задач требуется перейти к следующему понятию.

Функция распределения – это вероятность того, что случайная величина X в результате эксперимента примет значение менее заданного числа x. Именно такая или подобная формулировка вопроса используется для проверки статистических гипотез. Например, эффективней ли новое лекарство по сравнению с аналогами? Здесь не важно на сколько оно эффективней, важно то, превышает ли полученное в результате эксперимента значение заданный критический порог или нет. X – полученное число, x – это критический порог. Функция распределения дискретной случайной величины описывается с помощью следующих математических символов:

Функция распределения

где F(x) – функция распределения (рассчитываемой вероятности);

P(X<x) – вероятность (P) появления случайного числа (X), которое окажется меньше заданного значения (x).

Преобразуем данные об отдельных вероятностях в функцию распределения применительно к двум игральным костям. Для этого нужно последовательно сложить все вероятности.

Таблица с данными функции вероятностей выпадения суммы у двух игральных костей

Максимальное значение, понятное дело, снова равно 1 и соответствует тому, что сумма выпавших очков окажется меньшим, чем любое число, превышающие или равное 12.

Добавим образности с помощью графика функции распределения.

График функции распределения дискретной случайное величины

Разницу между двумя типами вероятностей (индивидуальной и рассчитанной по функции распределения) важно уяснить раз и навсегда. В первом случае – это отдельные вероятности, во втором – сумма вероятностей от первого возможного значения до заданного. Так, вероятность выпадения числа менее 7-ми равна 15/36 или 0,42. Это же число можно получить, если сложить индивидуальные вероятности выпадения суммы 2, 3, 4, 5 и 6 (см. первую таблицу). Отличительной чертой дискретного распределения является их ступенчатый вид, то есть рост значения функции происходит скачкообразно по мере перемещения к следующему возможному значению случайной величины.

Непрерывное распределение

В математике чаще имеют дело с непрерывными распределениями, которые представляют собой распределение непрерывной случайной величины. Непрерывная величина имеет бесконечный перечень возможных значений, даже в заданном интервале. Такой подход имеет более универсальных характер, т.к. не имеет ограничений в точности, связанной с округлением чисел. Однако требует внесения ясности и корректировок в некоторые понятия.

В целом вероятность по-прежнему называется вероятностью. Только вероятность отдельного значения у непрерывной переменной равна нулю, т.к. полная вероятность (1) делится на бесконечно большое количество возможных событий и получается 0, или бесконечно малое число. Таким образом, говорить о выпадении отдельного случайного числа нет смысла. Зато есть смысл говорить о выпадении числа из заданного интервала.

Вероятность появления случайного числа из некоторого интервала обозначается по прежнему буквой P. Например, вероятность того, что число X окажется в пределах от a до b, обозначается конструкцией P(a≤X<b).

Функция непрерывного распределения имеет тот же смысл, что и в дискретном:

Функция распределения

Также как и у дискретных значений, функция распределения непрерывной величины определяется суммой вероятностей всех значений, менее заданного x. Встает вопрос, как же определить сумму отдельных вероятностей, если все они равны нулю? Здесь ключевой момент, и мы переходим к новому понятию.

Плотность вероятности – это мера, определяющая интенсивность вероятности непрерывной случайной величины. Данное понятие не используется напрямую, однако требуется для определения вероятности того, что случайная величина примет значение из заданного интервала. В качестве примера непрерывного распределения обратимся к самому известному в статистике закону нормального распределения. Об этом законе еще поговорим, а сейчас посмотрим, как это выглядит с точки зрения непрерывности. Итак, график плотности вероятности задается известной формулой Гаусса и имеет следующий вид:

Кривая Гаусса

На кривой графика нет скачков, а сама линия имеет плавный вид. По оси ординат в данном случае откладывается не вероятность, а плотность вероятности. Большая плотность у центральных значений свидетельствует о том, что они появляются гораздо чаще, чем крайние. Похожую картину мы видели в примере с двумя игральными костями.

Итак, с помощью графика плотности вероятностей можно увидеть форму распределения. Как же определить вероятность того, что случайная величина попадет в заданный интервал? Вспомним, что для дискретных величин значение функции P(X<x) определяется сложением вероятностей. В геометрической интерпретации – это сложение длин всех столбцов до заданного значения x. Образно говоря, можно поставить все обозначенные столбцы один на один и измерить полученную длину. Можно также поставить столбцы тесно друг к другу (без зазоров) и измерить площадь полученной фигуры. В обоих случаях мы получим вероятность, как часть от общей длины или общей площади всех столбцов. По похожему принципу можно рассчитать вероятность непрерывной величины. Только оперировать придется уже не столбцами, т.к. их количество стремится к бесконечности, а площадью фигуры, которая на графике будет ограничена слева -∞, справа – предельным значением x, сверху кривой плотности вероятности и снизу – осью X. Допустим, у нас есть случайная величина, функция плотности которой изображена на рисунке выше. Ее среднее арифметическое равно 0, а дисперсия 1. Интересует вероятность того, что случайная величина примет значение меньше, чем 1,3. Для ответа нам потребуется рассчитать соответствующую площадь под функцией плотности. Рисуем график.

Площадь по кривой плотности

Общая площадь фигуры под кривой равна 1 и соответствует вероятности наступления любого из всех возможных событий (любого значения случайной величины). Нас интересует площади фигуры, которая залитая синим цветом. Для ее расчета требуется взять интеграл функции плотности вероятности от -∞ до x. Этот интеграл и есть функция распределения непрерывной случайной величины, т.к. представляет собой сумму вероятностей для всех значений менее заданного x. В нашем примере площадь залитой фигуры при x=1,3 составляет 0,9 от общей площади под кривой функции плотности. То есть вероятность того, случайная величина примет значение менее, чем 1,3, составляет 90%.

Саму функцию распределения также можно изобразить в виде возрастающего графика.

График функции распределения непрерывной величины

График, как видно, не имеет скачков (ступенек), а монотонно возрастает, достигая своего максимума в 1.

Таким образом, вероятность того, что случайная величина примет значение менее заданного, соответствует площади под кривой плотности распределения, либо значению ординаты у графика функции распределения.

Алгебраически это можно записать следующим образом.

Функция распределения:

Функция распределения как интеграл

Функция плотности вероятности:

Плотность вероятности как первая производная

Функция распределения непрерывной случайной величины есть интеграл от функции плотности. Функция плотности есть первая производная от функции распределения.

Очевидно, что по мере увеличения крайнего значения x увеличивается интервал и вероятность в него попасть. Максимальное значение функции распределения, то есть интеграл на промежутке от –∞ до +∞, равен 1. Вероятность попасть в любое из всех возможных значений – это достоверное событие и оно обязательно сбудется. Такое свойство для непрерывного распределения имеет следующую запись

Интеграл на всем промежутке равен 1

Понятно, что постановка задачи может быть иной. Часто аналитика интересует вероятность попадания в интервал между двумя значениями P(a≤X<b). Получить такую вероятность весьма несложно, если предварительно вычислить P(X < b) и P(X < a) с помощью функции распределения. Тогда P(a ≤ X < b) – это разность вероятностей P(X < b) и P(X < a), то бишь

P(a ≤ X < b)=F(b) – F(a)

Посмотрим на картинку, будет наглядней.

Вероятность P(a <X <b) = F(b) – F(a)

Площадь в зеленую клеточку соответствует P(a ≤ X < b) и ее можно найти как разность между всей окрашенной площадью P(X < b)и синим участком P(X < a).

Как используют теоретические распределения случайных величин

Существует немалое количество теоретических распределений: нормальное, Пуассона, Стьюдента, Фишера, биноминальное и т.д. Каждое из них было разработано для анализа данных, имеющих то или иное происхождение и обладающие некоторыми характеристиками. На практике эти распределения используют в качестве некоторого шаблона для анализа реальных данных похожего типа. Другими словами, структуру выбранного теоретического распределения пытаются наложить на реальные данные, рассчитывая тем самым интересующие аналитика вероятности.

Говоря более строго, теоретические распределения представляют собой вероятностно-статистические модели, свойствами которых пользуются для анализа эмпирических данных. Делается это примерно так. Собираются данные и сравниваются с каким-либо известным теоретическим распределением. Если имеет место сходство, то свойства теоретической модели с тои или иной степенью достоверности переносятся на эмпирические данные с соответствующими выводами. Такой подход лежит в основе классических методов, связанных с выборочным исследованием и проверкой статистических гипотез (расчет доверительных интервалов, сравнение средних величин, проверка значимости параметров т.д.).

Если имеющиеся данные не соответствуют какому-либо известному теоретическому распределению (что на практике обычно и происходит, но это мало кого заботит), то пользоваться выбранным шаблоном (вероятностно-статистической моделью) не рекомендуется. Неправомерное использование параметрических распределений (перечисленных выше) приводит к ситуации, когда аналитик ищет ключи не там, где потерял, а под фонарным столбом, где светло. Для решения проблемы существуют другие подходы, связанные с использованием непараметрической статистики. Однако пока будем осваивать параметрические, т.е. классические методы статистического анализа.

О различных формах распределений и о том, как их использовать для конкретных видов статанализа, будут отдельные статьи. Поэтому рекомендую оформить подписку для получения обновлений на почту.

Всех благ и до новых встреч на statanaliz.info.

Поделиться в социальных сетях:
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  • Титова Екатерина

    я очень извиняюсь, но или я не понимаю что-то, или у вас там в примере с распределением вероятности на двух игральных косточках, ошибка.

    по идее, послденим собтием, вероятность которого равно еденице, дожно быть событие что на 2 игральных костях выпадет 12 очков равна не еденице, а нулю… потому что получить на двух костях по 6 очков максимум на каждом сумму очков больше 12, невозможно.

    • Андрей

      вероятность того, что выпадет число НЕ БОЛЬШЕ чем (от 12 до +бесконечности) — это единица. Мы, конечно, знаем, что 12 — это максимум, но при такой записи формально охватываем всё от -бесконечности до +бесконечности.

      • Езепов Дмитрий

        Спасибо за замечания. Статью нужно поправить.