P-value — одно из самых загадочных и пугающих понятий в жизни многих начинающих аналитиков и дата-сайентистов. С ним либо совсем ничего не понятно, либо понятно, но как-то не до конца.
Не переживайте! Сегодня мы постараемся раз и навсегда закрыть этот пробел.
Говорить о p-value мы будем в рамках классической задачи про нечестную монетку — такую, для которой вероятности выпадения орла и решки не равны друг другу.
Очевидно, что теоретически любая «нетипичная» комбинация орлов и решек при любом количестве бросков может получиться случайно. Например, если мы подбросим монету пять раз и четыре из них увидим орла, то наверняка не предадим этому значения. Но вот если он выпадет 99 раз из 100 — мы будем уверены, что дело нечисто.
Вопрос в том, где проходит грань: когда можно более-менее точно сказать, что монета нечестная?
Чтобы ответить на этот вопрос, введём понятия нулевой и альтернативной гипотез. В статистике так называют предположения о том, что наблюдаемый феномен соответственно является или не является случайностью.
В нашем случае нулевая гипотеза будет звучать так: монетка честная, полученные результаты — чистое совпадение, выпадение сторон равновероятно.
Альтернативная же гипотеза: с монеткой что-то не так, перекошенные результаты статистически значимы, орлы выпадают чаще.
Определить, какая из них больше похожа на правду, нам поможет p-value или p-уровень значимости — это вероятность наблюдать наш феномен в рамках нулевой гипотезы: например, увидеть 99 орлов, бросив честную монетку 100 раз.
Чем меньше уровень значимости, тем меньше наш феномен вписывается в нулевую гипотезу и с тем большей уверенностью можно отвергать её и принимать альтернативную.
Вычисления в случае с монетами не составляют особого труда:
● для события A (четыре орла из пяти) P(A) = 5 / 32 = 0.15625
● для события B (99 орлов из 100) P(B) = 100 / 2^100 — это число с 28 нулями после запятой
Здесь главное — не попасть в классическую ловушку для новичков: ведь P(A) и P(B) — ещё не p-value. Как же так?
Дело в том, что p-value — вероятность наблюдать сам феномен, а не конкретный результат, поэтому нас интересует не только данный, но и все ещё более нетипичные случаи. Учтём комбинации из одних орлов — и получим реальные уровни значимости: 6 / 32 и 101 / 2^100 соответственно.
Наша интуитивная «подозрительность» по отношению к монетке теперь выражена математически. Первую нашу комбинацию честная монетка выдаёт примерно в одном случае из пяти, то есть довольно часто. Вторую — в одном случае из 10^28 — считайте, никогда.
Итого p-value — вероятность получить такие или еще более выраженные различия, при условии что верна нулевая гипотеза. Когда p превышает определённое значение, говорят, что оснований для отклонения нулевой гипотезы недостаточно.
Чаще всего за пороговый p-уровень принимают 0.05, 0.03 или 0.01 — в зависимости от выборки и задачи. Но это когда оценка двусторонняя: скажем, нас интересуют не строго четыре орла, а четыре любых одинаковых результата из пяти. При односторонней оценке порог обычно вдвое меньше.
Конечно, всё это только верхушка айсберга. Но теперь вы как минимум не ударите в грязь лицом, когда на собеседовании вас спросят о p-value или предложат оценить порядочность монеты :)
А напоследок вот вам домашнее задание по теме — простенькая, но тоже популярная среди работодателей задачка: как с помощью нечестной монетки провести честную жеребьёвку? Ждём ваши варианты в комментариях!
#полезное@karpovcourses