Дисперсия и стандартная ошибка доли

Здравствуйте.

Пару статей назад был рассмотрен один из важнейших показателей в статистике – дисперсия средней арифметической, квадратный корень которого называют стандартной ошибкой средней. Эти показатели используются для анализа количественных данных, которые могут быть любым числом.

В то же время при реализации т.н. схемы Бернулли переменная принимает одно из двух значений: 1 или 0 (например, красный или белый шар, вытащенный из урны, «За» или «Против» кандидата в президенты и т.д.). Такой тип данных называют дихотомическими. Подробней о них было рассказано в статье о биномиальном распределении. Математическим ожиданием булевой переменной (можно и такое название встретить) является вероятность p наступления «успеха» (см. там же).

Хорошо, если вероятность известна заранее (например, количество красных и белых шаров в урне). Но чаще вероятность оценивают по имеющимся наблюдениям (выборке). Такой оценкой является доля – соотношение наблюдаемых «успехов» к общему количеству значений (размеру выборки). Обозначим ее как p*.

При бесконечно большом количестве наблюдений доля стремится к теоретической вероятности p (этот факт известен со времен Якоба Бернулли). Доля рассчитывается очень легко: нужно сложить все 1 и разделить на общее количество наблюдений. Процедура похожа на расчет средней арифметической: складываем все значения и делим на их количество. Фактически одно и то же, только тип данных отличается.

По аналогии со средней арифметической доля при повторном эксперименте (опросе общественного мнения, например) обязательно изменится. Отсюда важно понимать степень ее разброса. Для этого традиционно используют дисперсию.

Дисперсия и стандартная ошибка доли

Обратимся вначале к дисперсии биномиальной переменной. Если истинная вероятность p не известна, то используют ее оценку p*.

Дисперсия биномиальной переменной

где B – сумма «успехов» в выборке;

n – количество наблюдений;

p* – оценка вероятности, т.е. доля «успехов».

Нас интересует дисперсия величины B/n. Согласно одному из свойств дисперсии, постоянный множитель выносится за скобки и возводится в квадрат.

Получаем формулу дисперсию доли:

Дисперсия доли

Почти полная аналогия со средней арифметической. В числителе дисперсия самой переменной (1 или 0), внизу – объем выборки.

Стандартная ошибка – корень из дисперсии:

Стандартная ошибка доли

Стандартная ошибка доли при увеличении выборки ведет себя так же, как и стандартная ошибка средней: чем больше выборка, тем меньше ошибка, но при этом уменьшение постоянно замедляется.

Как известно, максимально возможная дисперсия переменной в схеме Бернулли достигается при p*=0,5. Она равна 0,5*(1-0,5)=0,25. Отсюда легко рассчитать максимальную стандартную ошибку доли, полученную по некоторой выборке.

Формула максимальной стандартной ошибки доли

Изобразим эту зависимость на диаграмме.

Зависимость стандартной ошибки доли от размера выборке при p=0.5

График имеет знакомую конфигурацию: ошибка уменьшается с замедлением. Так, при объеме выборки равной 100 наблюдениям стандартная ошибка (максимально возможная!) равна 0,05 (или 5 процентных пункта). При n=1000 стандартная ошибка доли составляет всего 0,0158 (или 1,58 процентных пункта). Повторюсь, что это максимум. Именно поэтому опросы общественно мнения редко превышают 1500-2000 человек (чтобы еще была возможность разбить данные на группы достаточно размера).

На практике довольно часто приходится анализировать нечисловые данные. Это может быть анкетирование покупателей, контроль качества продукции и много чего еще. Поэтому доля, как оценка вероятности наступления интересующего события, – довольно распространенный показатель. Дисперсия и стандартная ошибка доли используется при расчете доверительных интервалов вероятностей и при проверке статистических гипотез. Но об этом в ближайших статьях.

На сегодня все. До новых встреч.