Диаграмма нормального распределения с критерием и p-value

Диаграммы делают числа наглядными и облегчают объяснение сложных идей. Например, идею статистического вывода словами объяснить довольно сложно. Однако использование правильных диаграмм в корне меняет дело.

В стандартном наборе Excel нет диаграммы распределения или чего-то похожего. Поэтому мы такую диаграмму сделаем сами. Изображать будем плотность стандартного нормального распределения, статистический критерий, критические области и p-level.

График плотности нормального распределения

Начнем с графика плотности распределения вероятностей. Вначале сделаем ряд независимой переменной X в диапазоне от -5 до +5 с шагом 0,01. Учитывая правило трех сигм, этого интервала будет достаточно. Данные для удобства поместим в таблицу Excel.

Стандартизованная переменная X

Затем добавим новый столбец Плотность N(0, 1) и с помощью функции НОРМ.СТ.РАСП() подсчитаем для каждого X плотность нормального распределения.

Плотность стандартного нормального распределения

Про другие функции Excel, связанные с нормальным распределением, читайте в этой статье.

Собственно, уже можно строить график. Выделяем столбец с плотностью и во вкладке Вставка выбираем График.

График нормального распределения

По умолчанию диаграммы Excel довольно страшненькие.

График Excel по умолчанию

Приведение графика в приличный вид потребует следующих шагов.

1. Удалить или изменить название диаграммы.

2. Поменять цвет линии.

3. Добавить подписи из колонки X.

4. Изменить частоту подписей X, чтобы были видны только круглые значения.

5. Удалить сетку и подписи вертикальной оси.

6. Сделать линию сглаженной.

В результате получим колоколообразную кривую нормального распределения.

Отформатированный график

Подробности форматирования в ролике ниже.

Критерий на диаграмме распределения

Нанесем на горизонтальную ось значение критерия в виде красной точки. Для этого добавим в таблицу еще один столбец Точка, где все значения равны #Н/Д, кроме одного, которое равно 0 в точке, соответствующей реальному значению X.

Задаваемое значение X вынесем в отдельную ячейку B1 над таблицей. В новом столбце с помощью функции ЕСЛИ создадим следующее условие: если округленное до сотых значение в ячейке B1 совпадает со значением в колонке X по этой же строке, то возвращается 0, в противном случае – #Н/Д.

=ЕСЛИ([@X]=ОКРУГЛ($B$1;2);0;НД())

Так как данные хранятся в таблице Excel, то новый ряд сразу добавляется на диаграмму. Нужно только его отформатировать, чтобы единственное значение было показано в виде точки. Делаем примерно так.

1. Выделяем ряд с точкой.

2. Убираем соединительную линию.

3. Добавляем маркер.

4. Делаем маркер красным кружком.

Критерий на диаграмме с плотносью распределения

Теперь, если изменять значение X (в пределах ±5), красная точка будет перемещаться по горизонтальной оси.

Критерий

Критическая область на диаграмме распределения

[load_module id=»111″]

Чтобы визуально проверить нулевую гипотезу, на диаграмму нужно нанести критическую область в виде закрашенных хвостов распределения. Предположим, что критерий двухсторонний.

Если точка попадет в критическую область, то нулевая гипотеза отклоняется. Если не попадает – не отклоняется.

Вначале нужно определить критический уровень, за пределами которого нулевая гипотеза отвергается. Критический уровень, как правило, является расчетной величиной и определяется желаемым уровнем значимости α (альфа). То есть задается α, а критический уровень рассчитывается по формуле. В нашем примере используется двухсторонний критерий, поэтому для каждого хвоста будет использована половина уровня значимости, т.е. α/2. Например, если, α = 0,05, то каждый хвост распределения будет иметь площадь по 0,025.

Для изображения критических областей на диаграмме добавляем в исходную таблицу еще один столбец – Критич.обл. На диаграмме должна быть показана только та область, которая по модулю больше критических значений, во всех остальных ячейках – #Н/Д.

Вновь используем обычную функцию ЕСЛИ для проверки условия: если значение X по модулю превышает критическое значение, то возвращается соответствующая этому X плотность вероятности (дублируется из второго столбца), в противном случае – #Н/Д.

=ЕСЛИ(ABS([@X])>=НОРМ.СТ.ОБР(1-$B$2/2);[@[Плотность N(0,1)]];НД())

где в ячейке B2 задается уровень α.

Нанесение критических областей на диаграмму

На данном этапе добавился второй слой линии плотности (на рисунке она чуть светлее). Нам же требуется закрашенная область, поэтому выбираем для этого ряда другой тип диаграммы – с областями. Выполняем следующие шаги.

1. Правой кнопкой мыши по диаграмме → Изменить тип диаграммы для ряда…

2. Для ряда с критической областью выбираем тип С областями.

3. Ок.

4. Форматируем закрашенную область в нужный цвет.

Критическая область на диаграмме распределения

Таким образом, мы добавили на диаграмму критическую область, которая регулируется уровнем значимости α. Закрашенная площадь дает визуальное представление о допустимой вероятности отклонить нулевую гипотезу, когда она на самом деле верна.

Имея значение статистического критерия и выставив уровень значимости, можно увидеть процесс проверки гипотезы. Если красная точка (значение критерия) попадает в критическую (закрашенную) область, нулевую гипотезу отклоняем, в противном случае – не отклоняем.
Критическая область

P-level на диаграмме распределения

Метод проверки гипотезы, когда значение критерия сравнивают с критическим уровнем, несколько устарел. В современной статистике для проверки гипотез используют p-level. Напомню, p-level – это вероятность получить такое или большее отклонение критерия от гипотезы, когда нулевая гипотеза верна. Другими словами, p-level – это фактический уровень значимости.

Так вот, когда p-level меньше установленного значения (часто 0,05 или 0,01), то нулевую гипотезу отклоняют, в противном случае не отклоняют. Логика по сути та же, но с p-level мы видим не только факт попадания критерия в критическую область, но и степень уверенности, с которой отклоняется гипотеза. Чем меньше p-level, тем больше радости на лице статистика.

P-level рисуется так же, как и критическая область, – это закрашенные хвосты распределения. Только заливка начинается не от критического уровня, а от значения самого критерия. Лепить все на одну диаграмму не очень хорошо, поэтому скопируем созданный лист и немного переделаем диаграмму.

1. Заменим во второй строке листа α на двухсторонний p-level по формуле:

=(1-НОРМ.СТ.РАСП(ABS(B1);1))*2.

2. Переименуем название столбца Крит.обл. в p-level.

3. Изменим формулу в столбце p-level на

=ЕСЛИ(ABS([@X])>=ABS($B$1);[@[Плотность N(0, 1)]];НД()).

P-level на диаграмме распределения

Изменяя X в ячейке B1, можно увидеть положение критерия и p-level.

p-level

Визуализация любого другого распределения (t-Стьюдента, Хи-квадрат и др.) происходит аналогично.

Желающие увидеть весь процесс создания диаграммы распределения приглашаются к просмотру видео.

Скачать файл с примером.