Все эксперименты проводятся для того, чтобы дать фактам возможность опровергнуть нулевую гипотезу.
Р. Фишер.
В основе проверки статистических гипотез лежит идея, известная еще как минимум со времен Сократа – доказательство от противного. Этот метод Сократ использовал для того, чтобы опровергнуть своего собеседника. Вначале он допускал его правоту, а затем сравнивал точку зрения собеседника с имеющимися фактами. Если обнаруживается противоречие, то одно из утверждений неверно. А т.к. наблюдаемый факт точно существует, то неверным оказывается предположение, т.е. мнение собеседника.
Так и в проверке гипотез. Вначале допускают, что проверяемая гипотеза верна. Затем смотрят, какие варианты событий при этом возможны. Если среди них есть наблюдаемое в реальности событие, то считают, что гипотеза не противоречит фактам и такую гипотезу не отклоняют (но и не доказывают!). Если наблюдаемое событие выходит за рамки допустимых, то ее отклоняют, как невозможную или маловероятную, еще говорят «ложную».
В литературе встречается один забавных пример, который наглядно демонстрирует практическую сторону вопроса. Однажды в Неаполе преподобный Галиани увидел человека из Базиликаты, который, встряхивая 3 игральные кости в чашке, держал пари, что выбросит три шестерки; и действительно, он немедленно получил три шестерки. Вы скажите: такая удача возможна. Однако человеку из Базиликаты это удалось во второй раз, и пари повторилось. Он клал кости назад в чашку 3, 4, 5 раз и каждый раз выбрасывал 3 шестерки. «Черт возьми, – вскричал преподобный, – кости налиты свинцом». И так оно и было.
Галиани применил метод проверки гипотезы сам того не ведая. В данном случае гипотезой было то, что кости симметричные. И если это так, то вероятность выкинуть 3 шестерки 5 раз подряд равна (1/63)5 или 2,13∙10-12, то есть настолько маловероятно, что практически невозможно. Следовательно, предположение о симметричности костей, скорее всего, неверно.
Вернемся в наши дни. В большинстве случаев аналитик имеет дело с выборкой, которая всегда ошибочна. Выборка не может показать, например, чему в точности равна средняя или доля по генеральной совокупности. По выборке можно получить только оценку, т.е. приближенное значение этой характеристики (параметра). Чтобы по таким оценкам делать строгие выводы, необходимо вначале рассчитать, а затем сделать поправку на возможные отклонения оценки от истинного значения.
Представим, что мы много-много раз (скажем, 1000) извлекаем выборки из некоторой генеральной совокупности и в каждой из них рассчитываем среднее арифметическое. Если выборки достаточны большие (более 30-ти наблюдений), то в силу действия центральной предельной теоремы выборочные средние будут распределены по нормальному закону с истинным средним в центре.
Смоделировать такой эксперимент несложно в Excel. Возьмем «генеральную совокупность», пусть даже с равномерным распределением от 0 до 1000. Извлечем из нее 1000 выборок по 30 наблюдений и отобразим распределение средних на гистограмме.
В 95% среднее окажется в пределах ± 1,96 стандартных ошибок от истинной средней (матожидания). В остальных 5% средние отклонятся дальше. При однократном эксперименте мы имеем довольно мало шансов получить выборку со средней, выходящей за пределы ± 1,96 стандартной ошибки. И гораздо меньше шансов получить выборку со средней, выходящей за пределы ± 3 стандартной ошибки (3 случая из 1000). Это известные свойства нормального распределения.
Метод проверки гипотез
В реальности истинная средняя по генеральной совокупности неизвестна и ее значение можно только предполагать. Такое предположение называется статистической гипотезой, обозначается H. Если предположение противоречит наблюдаемым данным, то гипотезу отклоняют, как ложную; если не противоречит, то не отклоняют. Степень противоречия определяется вероятностью, которая в свою очередь зависит от того, как далеко фактическая выборочная средняя отклоняется от гипотезы. Если она (вероятность) достаточно маленькая, то противоречие считается доказанным (не забывая о возможной ошибке). Для расчета вероятности выбирают вероятностно-статистическую модель, которая описывает поведение оценки при многократном повторении эксперимента. В случае со средней арифметической в большой выборке подойдет стандартное нормальное распределение.
Теперь нужно определить, какова вероятность извлечь из такой генеральной совокупности имеющуюся выборочную среднюю. Если она окажется в зоне близкой к центру, то это не противоречит гипотезе, ведь такое вполне может произойти в силу случайности. Но если она окажется далеко, например, выйдет за пределы ± 1,96 стандартные ошибки, то это будет означать что, либо произошло маловероятное событие, либо выдвинутая гипотеза ложна и ее следует отклонить.
Правила проверки гипотезы (статистического вывода) показаны на рисунке.
Предельное значение, которое разделяет области принятия и отклонения гипотезы, называется критическим уровнем. Область отклонения гипотезы – критическая область. Вероятность, соответствующая критической области, – уровень значимости, обозначается греческой буквой α (альфа). Например, α = 0,05 означает, что уровень значимости равен 5%. Очевидно, что между критическим уровнем и уровнем значимости существует функциональная взаимосвязь.
Чтобы определить, в какую область попадает выборочная средняя, нужно рассчитать т.н. статистический критерий, иногда говорят статистика. Большие значения критерия, как правило, свидетельствуют в пользу того, что отличие не случайно и, соответственно, гипотеза не верна. Статистический критерий для нормальной модели – это обычная z-оценка, рассчитываемая по известной формуле.
где
z – критерий
x̄ – наблюдаемое среднее арифметическое
μ – гипотетическая средняя в генеральной совокупности
s – среднеквадратическое отклонение выборочных данных
n – объем выборки
Если рассчитанный критерий оказывается по модулю больше, чем критическое значение, т.е. попадает в критическую область, значит, гипотеза отклоняется как ложная (точнее, маловероятная).
Если критерий не выходит за критическое значение, то гипотеза не отклоняется.
Уровень значимости задается исходя из практических соображений. Часто берут 0,05, для которого критический уровень равен 1,96 (в нормальной модели). Если α = 0,01, то критический уровень – 2,58. Все это легко получить из таблиц стандартного нормального распределения. Но, конечно, быстрее посчитать на компьютере, хоть и в Excel.
В зависимости от выбранной вероятностно-статистической модели вид распределения и способ расчета критерия производится по-разному. Но суть остается прежней: статистический критерий сравнивается с критическим значением, который задается исходя из желаемого уровня значимости.
P-value
Изложенная выше методика на сегодняшний день несколько устарела. Дело в том, что, сравнивая критерий с критическим уровнем, мы не видим «силу доказательства». Ведь критерий может попасть в область, соответствующую 5% уровню значимости, а может и в 1% значимости (т.е. отклониться еще дальше). В обоих случаях гипотеза отклоняется, но уверенность, с которой это делается, не одинаковая. Одно дело «скорее всего» (как при 5%-м уровне), а другое «наверняка» (как при 1% уровне). Поэтому проверку гипотезы делают по наблюдаемому уровню значимости, который называют p-value (или р-значение).
p-value – вероятность получить наблюдаемое или еще большее отклонение оценки от гипотезы, если она (гипотеза) верна. Геометрически это площадь под кривой, которая начинается от статистического критерия в сторону от гипотезы (от центра).
Общий p-value на данном рисунке складывается из двух частей, т.к. гипотеза рассматривает отклонение в любую из сторон.
Например, если статистический критерий равен 1,96, то вероятность получить по модулю такое или еще большее значение, равна 0,05. Это и есть p-value, который в данном случае совпал с уровнем значимости. Но если критерий равен 3, то вероятность получить такое или еще больше отклонение (по модулю) равна всего 0,0027. Т.к. мы считаем возможным отклонение в обе стороны, p-value складывается из двух частей.
Итак, правило проверки гипотезы по наблюдаемому уровню значимости следующее: если p-value меньше, чем заданный уровень значимости (например, 0,05), то гипотеза отклоняется. В противном случае не отклоняется (не отвергается). В примере выше p-value = 0,0027, что гораздо меньше, чем 0,05. Следовательно, гипотеза отвергается.
1 и 2 сторонний критерий
Рассмотрим еще несколько важных понятий. Выше был показан т.н. двухсторонний критерий, когда проверка на отклонение производится в обе стороны.
Иногда имеет смысл рассматривать отклонение только в одну сторону. Например, если заранее известно, что отклонение от гипотезы возможно только в сторону увеличения, то левый хвост не рассматривают. Такой критерий называется односторонним. Использование одностороннего критерия вместо двухстороннего при заданном уровень значимости (α) приводит увеличению мощности критерия (его способности обнаружить эффект), что очень даже хорошо. Но про мощность поговорим в другой раз.
Вот, как на диаграмме выглядит односторонний критерий.
Однако одностороннюю гипотезу нужно формировать заранее. Нельзя для повышения убедительности выводов после проведения анализа менять двухсторонний критерий на односторонний. Это будет подгонка фактов под теорию, что увеличивает вероятность совершить ошибку.
Альтернативная гипотеза
Проверяемая гипотеза называется основной или нулевой. Она подразумевает некоторый status quo, когда между проверяемыми данными нет отличий. Гипотеза остается в силе, если оценка отклонятся не слишком далеко и находится в зоне возможных случайных колебаний.
Кроме основной (нулевой) гипотезы рассматривают альтернативную или конкурирующую. Формально, альтернативная гипотеза – это любое предположение о параметрах распределения, не совместимое с нулевой гипотезой. Однако на практике разнообразие проверяемых и альтернативных гипотез довольно ограничено. Например, основная гипотеза (нулевая) заключается в том, что средняя равна некоторому значению, а альтернативная – не равна этому значению.
Нулевая гипотеза обозначается H0, альтернативная Ha. Краткая запись условия задачи при использовании двухстороннего критерия имеет следующий вид.
H0: μ = a
Ha: μ ≠ a
Если рассматривается односторонний критерий, то запись может иметь такой вид.
H0: μ ≤ a
Ha: μ > a
При отклонении нулевой гипотезы, автоматически принимается альтернативная.
Следует отметить, что предметом доказательства, как правило, является именно конкурирующая гипотеза. То есть проверяя равенство средних в двух выборках, исследователя интересует их различие, которое должно подтвердить влияние некоторого воздействия на предмет исследования (новое лекарство, новых способ обработки материала и др.). Если есть влияние, то будет и различие, если нет, то средние будут отличаться не очень сильно, в пределах случайных колебаний оценок.
Статистический вывод
Заострим внимание на корректности статистических выводов. Вместо выражения «гипотеза не отклоняется» часто говорят «гипотеза принимается». В целом, это выражение также приемлемо, если его понимать правильно, т.е. если считать, что принимается именно гипотеза (одно из возможных объяснений), а не конкретное утверждение. Но понимают его часто неправильно, подразумевая, что в случае не отклонения гипотезы принимается сама идея гипотезы. Например, если гипотеза о равенстве вероятностей в двух выборках не отклоняется, то делают заключение, что, мол, вероятности действительно равны. Такое заключение ошибочно.
На самом деле принятие гипотезы означает, что она не противоречит данным и может рассматриваться до тех пор, пока не будет доказано обратное. Принятие гипотезы не может доказать ее правильность, для этого есть лишь один способ: исследовать все анализируемое явление в целом, собрав генеральную совокупность. По выборке можно только опровергнуть маловероятные или невозможные предположения, противоречащие фактическим данным, сузив тем самым круг для поиска истины.
Проще говоря, выдвинув ту или иную гипотезу, исследователь задает вопрос: может ли такое быть, чтобы при имеющихся данных имело место вот это событие (нулевая гипотеза об отсутствии различий или взаимосвязей)? Ответа здесь только два: 1) да, может; 2) нет, не может. Нулевую гипотезу можно только опровергнуть, но не доказать.
Эта очень важная мысль должна быть усвоена крепко. Иначе выводы будут неправильными. Так, даже в учебниках по статистике, например, проверяют гипотезу о том, что выборочные данные имеют нормальное распределение. Собрали 10 наблюдений, рассчитали какой-нибудь критерий хи-квадрат и радуются, что гипотеза не отклонена, значит мол, данные имеют нормальное распределение. Чепуха. Таким же образом можно «доказать» все, что угодно, и даже то, что данные одновременно принадлежат разным распределениям. Если нулевая гипотеза не отклоняется, это не значит, что она доказывается. Скорее всего, эффект (отличие) оказывается недостаточно заметным. А вот при большом объеме данных принятие нулевой гипотезы говорит о том, что отличие, если оно и есть, не очень большое и может рассматриваться, как будто его нет.
Снимаю шляпу, отличный материал.
Спасибо огромное.
Замечательный сайт! Замечательная подача материала! Спасибо за то, что мир не без добрых людей 😉
Большое спасибо за ответ на вопрос: Почему?
Друзья, у Дмитрия есть файл в котором можно очистить данные от выбросов, можете дать ссылку на него
Отправил на почту.
Работаю в Газпромбанке. С упоением читаю Ваш материал — спасибо огромное!
Спасибо за комментарий )) Рад, если помог узнать новое и полезное!