Биномиальное распределение - Binomial distribution

Биномиальное распределение
	Вероятностная функция масс
	Кумулятивная функция распределения
Обозначение
Параметры	- количество испытаний - вероятность успеха для каждого испытания; ;
Служба поддержки	- количество успехов
PMF
CDF
Иметь в виду
Медиана	или
Режим	или
Дисперсия
Асимметрия
Бывший. эксцесс
Энтропия	; в шаннонах . Для натсов используйте в журнале натуральный журнал.
MGF
CF
PGF
Информация Fisher	; (для фиксированного )

Биномиальное распределение для с n и k, как в треугольнике Паскаля . Вероятность того, что мяч в ящике Гальтона с 8 слоями ( n = 8 ) окажется в центральном контейнере ( k = 4), равна .

{\ displaystyle p = 0,5}

{\ displaystyle 70/256}

В теории вероятностей и статистике , в биномиальном распределении с параметрами п и р является дискретным распределением вероятностей числа успехов в последовательности п независимых опытов , каждый Задавая да-нет вопроса , и каждый со своим собственными булевым -значным результатом : успех (с вероятностью p ) или неудача (с вероятностью q = 1 - p ). Единичный эксперимент с успехом / неудачей также называется испытанием Бернулли или экспериментом Бернулли, а последовательность результатов называется процессом Бернулли ; для одного испытания, т. е. n = 1, биномиальное распределение является распределением Бернулли . Биномиальное распределение является основой для популярного биномиального теста на статистическую значимость .

Биномиальное распределение часто используется для моделирования числа успехов в выборке размера п обращается с заменой из популяции размера N . Если выборка выполняется без замены, розыгрыши не являются независимыми, и поэтому результирующее распределение является гипергеометрическим распределением , а не биномиальным. Однако для N, намного большего, чем n , биномиальное распределение остается хорошим приближением и широко используется.

Определения

Вероятностная функция масс

В общем случае, если случайная величина X подчиняется биномиальному распределению с параметрами n ∈ ℕ и p ∈ [0,1], мы пишем X ~ B ( n , p ). Вероятность получить ровно k успехов в n независимых испытаниях Бернулли определяется функцией массы вероятности :

{\ Displaystyle е (к, n, р) = \ Pr (к; п, р) = \ Pr (X = к) = {\ binom {n} {k}} p ^ {k} (1-p) ^ {nk}}

для k = 0, 1, 2, ..., n , где

{\ displaystyle {\ binom {n} {k}} = {\ frac {n!} {k! (nk)!}}}

- биномиальный коэффициент , отсюда и название распределения. Формулу можно понять так: k успехов происходят с вероятностью p ^k и n - k неудач происходят с вероятностью (1 - p ) ^{n - k} . Однако k успешных результатов могут произойти где угодно среди n попыток, и существуют разные способы распределения k успехов в последовательности из n попыток. ${\ displaystyle {\ binom {n} {k}}}$

При создании справочных таблиц для вероятностей биномиального распределения обычно таблица заполняется до n / 2 значений. Это связано с тем, что для k > n / 2 вероятность может быть вычислена путем его дополнения как

{\ displaystyle f (k, n, p) = f (nk, n, 1-p).}

Если посмотреть на выражение f ( k , n , p ) как функцию от k , найдется значение k, которое максимизирует его. Это значение k можно найти, вычислив

{\ Displaystyle {\ гидроразрыва {е (к + 1, n, p)} {f (k, n, p)}} = {\ frac {(nk) p} {(k + 1) (1-p) }}}

и сравнивая его с 1. Всегда существует целое число M , удовлетворяющее

{\ Displaystyle (п + 1) п-1 \ leq М <(п + 1) п.}

f ( k , n , p ) монотонно возрастает при k < M и монотонно убывает при k > M , за исключением случая, когда ( n + 1) p является целым числом. В этом случае есть два значения, для которых f является максимальным: ( n + 1) p и ( n + 1) p - 1. M является наиболее вероятным исходом (то есть наиболее вероятным, хотя это все еще может быть маловероятным. в целом) испытаний Бернулли и называется режимом .

Пример

Предположим, при подбрасывании искаженной монеты выпадает орел с вероятностью 0,3. Вероятность увидеть ровно 4 решки за 6 бросков равна

{\ displaystyle f (4,6,0.3) = {\ binom {6} {4}} 0,3 ^ {4} (1-0,3) ^ {6-4} = 0,059535.}

Кумулятивная функция распределения

Интегральная функция распределения может быть выражена как:

{\ Displaystyle F (к; n, p) = \ Pr (X \ leq k) = \ sum _ {i = 0} ^ {\ lfloor k \ rfloor} {n \ select i} p ^ {i} (1 -p) ^ {ni},}

где "этаж" под k , то есть наибольшее целое число, меньшее или равное k . ${\ displaystyle \ lfloor k \ rfloor}$

Его также можно представить в терминах регуляризованной неполной бета-функции следующим образом:

{\ Displaystyle {\ begin {align} F (k; n, p) & = \ Pr (X \ leq k) \\ & = I_ {1-p} (nk, k + 1) \\ & = (nk ) {n \ choose k} \ int _ {0} ^ {1-p} t ^ {nk-1} (1-t) ^ {k} \, dt. \ end {align}}}

которая эквивалентна кумулятивной функции распределения от $F$ -распределения :

{\ Displaystyle F (к; n, p) = F_ {F {\ text {-distribution}}} \ left (x = {\ frac {1-p} {p}} {\ frac {k + 1} { nk}}; d_ {1} = 2 (nk), d_ {2} = 2 (k + 1) \ right).}

Некоторые оценки в закрытой форме для кумулятивной функции распределения приведены ниже .

Характеристики

Ожидаемая стоимость и отклонение

Если X ~ B ( п , р ), то есть, Х представляет собой биномиально распределенная случайная величина, п быть общее число экспериментов и р вероятность каждого эксперимента , получа положительный результат, то ожидаемое значение из X является:

{\ displaystyle \ operatorname {E} [X] = np.}

Это следует из линейности ожидаемого значения и того факта, что $X$ представляет собой сумму $n$ идентичных случайных величин Бернулли, каждая из которых имеет ожидаемое значение $p$ . Другими словами, если идентичны (и независимы) случайные величины Бернулли с параметром $p$ , то и ${\ Displaystyle X_ {1}, \ ldots, X_ {n}}$ ${\ Displaystyle X = X_ {1} + \ cdots + X_ {n}}$

{\ displaystyle \ operatorname {E} [X] = \ operatorname {E} [X_ {1} + \ cdots + X_ {n}] = \ operatorname {E} [X_ {1}] + \ cdots + \ operatorname { E} [X_ {n}] = p + \ cdots + p = np.}

Дисперсия является:

{\ displaystyle \ operatorname {Var} (X) = np (1-p).}

Это аналогично следует из того факта, что дисперсия суммы независимых случайных величин является суммой дисперсий.

Высшие моменты

Первые 6 центральных моментов , определяемые как , задаются формулой ${\ displaystyle \ mu _ {c} = \ operatorname {E} \ left [(X- \ operatorname {E} [X]) ^ {c} \ right]}$

{\ displaystyle {\ begin {align} \ mu _ {1} & = 0, \\\ mu _ {2} & = np (1-p), \\\ mu _ {3} & = np (1- p) (1-2p), \\\ mu _ {4} & = np (1-p) (1+ (3n-6) p (1-p)), \\\ mu _ {5} & = np (1-p) (1-2p) (1+ (10n-12) p (1-p)), \\\ mu _ {6} & = np (1-p) (1-30p (1- p) (1-4p (1-p)) + 5np (1-p) (5-26p (1-p)) + 15n ^ {2} p ^ {2} (1-p) ^ {2}) . \ end {выровнено}}}

Нецентральные моменты удовлетворяют

{\ displaystyle {\ begin {align} \ operatorname {E} [X] & = np, \\\ operatorname {E} [X ^ {2}] & = np (1-p) + n ^ {2} p ^ {2}, \ end {выровнено}}}

и вообще

{\ displaystyle \ operatorname {E} [X ^ {c}] = \ sum _ {k = 0} ^ {c} \ left \ {{c \ atop k} \ right \} n ^ {\ underline {k} } p ^ {k},}

где являются числами Стирлинга второго рода , а это го падения мощности из . Простая оценка следует из ограничения биномиальных моментов через высшие моменты Пуассона : ${\ displaystyle \ textstyle \ left \ {{c \ atop k} \ right \}}$ ${\ Displaystyle п ^ {\ подчеркивание {к}} = п (п-1) \ cdots (п-к + 1)}$ ${\ displaystyle k}$ ${\ displaystyle n}$

{\ displaystyle \ operatorname {E} [X ^ {c}] \ leq \ left ({\ frac {c} {\ log (c / (np) +1)}} \ right) ^ {c} \ leq ( np) ^ {c} \ exp \ left ({\ frac {c ^ {2}} {2np}} \ right).}

Это показывает, что если , то является не более чем постоянным множителем, отличным от ${\ displaystyle c = O ({\ sqrt {np}})}$ ${\ displaystyle \ operatorname {E} [X ^ {c}]}$ ${\ Displaystyle \ OperatorName {E} [X] ^ {c}}$

Режим

Обычно режим биномиального распределения B ( n , p ) равен , где - минимальная функция . Однако, когда ( n + 1) p является целым числом и p не равно ни 0, ни 1, тогда распределение имеет два режима: ( n + 1) p и ( n + 1) p - 1. Когда p равно 0 или 1 режим будет 0 и n соответственно. Эти случаи можно резюмировать следующим образом: ${\ Displaystyle \ lfloor (п + 1) п \ rfloor}$ ${\ Displaystyle \ lfloor \ cdot \ rfloor}$

{\ displaystyle {\ text {mode}} = {\ begin {cases} \ lfloor (n + 1) \, p \ rfloor & {\ text {if}} (n + 1) p {\ text {равно 0 или нецелое число}}, \\ (n + 1) \, p \ {\ text {and}} \ (n + 1) \, p-1 & {\ text {if}} (n + 1) p \ in \ {1, \ dots, n \}, \\ n & {\ text {if}} (n + 1) p = n + 1. \ End {case}}}

Доказательство: Пусть

{\ displaystyle f (k) = {\ binom {n} {k}} p ^ {k} q ^ {nk}.}

Для только имеет значение отличное от нуля с . Ибо мы находим и для . Это доказывает, что режим равен 0 для и для . ${\ displaystyle p = 0}$ ${\ displaystyle f (0)}$ ${\ displaystyle f (0) = 1}$ ${\ displaystyle p = 1}$ ${\ displaystyle f (n) = 1}$ ${\ displaystyle f (k) = 0}$ ${\ Displaystyle к \ neq п}$ ${\ displaystyle p = 0}$ ${\ displaystyle n}$ ${\ displaystyle p = 1}$

Пусть . Мы нашли ${\ displaystyle 0 <p <1}$

{\ displaystyle {\ frac {f (k + 1)} {f (k)}} = {\ frac {(nk) p} {(k + 1) (1-p)}}}

.

Из этого следует

{\ Displaystyle {\ begin {align} к> (n + 1) p-1 \ Rightarrow f (k + 1) <f (k) \\ k = (n + 1) p-1 \ Rightarrow f (k + 1) = f (k) \\ k <(n + 1) p-1 \ Rightarrow f (k + 1)> f (k) \ end {align}}}

Итак, когда - целое число, тогда и - это режим. В этом случае только режим. ${\ Displaystyle (п + 1) п-1}$ ${\ Displaystyle (п + 1) п-1}$ ${\ displaystyle (n + 1) p}$ ${\ Displaystyle (п + 1) п-1 \ notin \ mathbb {Z}}$ ${\ Displaystyle \ lfloor (n + 1) p-1 \ rfloor + 1 = \ lfloor (n + 1) p \ rfloor}$

Медиана

В общем, не существует единой формулы для нахождения медианы для биномиального распределения, и оно может даже быть неуникальным. Однако было установлено несколько особых результатов:

Если np является целым числом, то среднее значение, медиана и мода совпадают и равны np .
Любая медиана m должна лежать в интервале ⌊ np ⌋ ≤ m ≤ np ⌉.
Медиана m не может находиться слишком далеко от среднего: | м - нп | ≤ min {ln 2, max { p , 1 - p } }.
Медиана уникальна и равна m = round ( np ), когда | м - нп | ≤ min { p , 1 - p } (кроме случая, когда p = 1/2и n нечетное).
Когда p - рациональное число (за исключением p = 1/2 и нечетного n ), медиана уникальна.
Когда p = 1/2 и n нечетно, любое число m в интервале1/2( п - 1) ≤ м ≤ 1/2( n + 1) - медиана биномиального распределения. Если p = 1/2 и n четно, то m = n / 2 - единственная медиана.

Границы хвоста

Для k ≤ np верхние границы могут быть получены для нижнего хвоста кумулятивной функции распределения - вероятности того, что имеется не более k успешных результатов. Поскольку эти границы также можно рассматривать как границы верхнего хвоста кумулятивной функции распределения при k ≥ np . ${\ Displaystyle F (К; N, p) = \ Pr (X \ Leq k)}$ ${\ Displaystyle \ Pr (Икс \ GEQ К) = F (NK; N, 1-р)}$

Неравенство Хёффдинга дает простую оценку

{\ Displaystyle F (к; n, p) \ leq \ exp \ left (-2n \ left (p - {\ frac {k} {n}} \ right) ^ {2} \ right), \!}

что, однако, не очень плотно. В частности, для p = 1 мы имеем, что F ( k ; n , p ) = 0 (для фиксированного k , n с k < n ), но оценка Хёффдинга дает положительную константу.

Более точную оценку можно получить из оценки Чернова :

{\ Displaystyle F (к; n, p) \ leq \ exp \ left (-nD \ left ({\ frac {k} {n}} \ parallel p \ right) \ right)}

где D ( a || p ) - относительная энтропия (или расхождение Кульбака-Лейблера) между a -coin и p -coin (то есть между распределениями Бернулли ( a ) и Бернулли ( p )):

{\ displaystyle D (a \ parallel p) = (a) \ log {\ frac {a} {p}} + (1-a) \ log {\ frac {1-a} {1-p}}. \ !}

Асимптотически это ограничение достаточно жесткое; подробности см.

Можно также получить нижнюю границу хвоста , известную как границы антиконцентрации. Аппроксимируя биномиальный коэффициент формулой Стирлинга, можно показать, что ${\ Displaystyle F (к; п, р)}$

{\ Displaystyle F (к; n, p) \ geq {\ frac {1} {\ sqrt {8n {\ tfrac {k} {n}} (1 - {\ tfrac {k} {n}})}} } \ exp \ left (-nD \ left ({\ frac {k} {n}} \ parallel p \ right) \ right),}

что влечет более простую, но более слабую оценку

{\ Displaystyle F (к; n, p) \ geq {\ frac {1} {\ sqrt {2n}}} \ exp \ left (-nD \ left ({\ frac {k} {n}} \ parallel p \верно-верно).}

Для p = 1/2 и k ≥ 3 n / 8 для четного n знаменатель можно сделать постоянным:

{\ Displaystyle F (к; n, {\ tfrac {1} {2}}) \ geq {\ frac {1} {15}} \ exp \ left (-16n \ left ({\ frac {1} {2 }} - {\ frac {k} {n}} \ right) ^ {2} \ right). \!}

Связанные дистрибутивы

Суммы биномов

Если X ~ B ( n , p ) и Y ~ B ( m , p ) - независимые биномиальные переменные с одинаковой вероятностью p , то X + Y снова является биномиальной переменной; его распределение имеет вид Z = X + Y ~ B ( n + m , p ):

{\ displaystyle {\ begin {align} \ operatorname {P} (Z = k) & = \ sum _ {i = 0} ^ {k} \ left [{\ binom {n} {i}} p ^ {i } (1-p) ^ {ni} \ right] \ left [{\ binom {m} {ki}} p ^ {ki} (1-p) ^ {m-k + i} \ right] \\ & = {\ binom {n + m} {k}} p ^ {k} (1-p) ^ {n + mk} \ end {выровнено}}}

Биномиальная распределенная случайная величина X ~ B ( n , p ) может рассматриваться как сумма n случайных величин, распределенных по Бернулли. Таким образом, сумма двух биномиальных распределенных случайных величин X ~ B ( n , p ) и Y ~ B ( m , p ) эквивалентна сумме n + m случайных величин, распределенных Бернулли, что означает Z = X + Y ~ B ( п + м , п ). Это также можно доказать напрямую, используя правило сложения.

Однако, если X и Y не имеют одинаковой вероятности p , то дисперсия суммы будет меньше, чем дисперсия биномиальной переменной, распределенной как ${\ Displaystyle В (п + м, {\ бар {p}}). \,}$

Биномиальное распределение Пуассона

Биномиальное распределение - это частный случай биномиального распределения Пуассона или общего биномиального распределения , которое представляет собой распределение суммы n независимых неидентичных испытаний Бернулли B ( p _i ).

Соотношение двух биномиальных распределений

Этот результат был впервые получен Кацем и соавторами в 1978 году.

Пусть X ~ B ( n , p ₁ ) и Y ~ B ( m , p ₂ ) независимы. Пусть T = ( X / n ) / ( Y / m ).

Тогда log ( T ) приблизительно нормально распределен со средним логарифмом ( p ₁ / p ₂ ) и дисперсией ((1 / p ₁ ) - 1) / n + ((1 / p ₂ ) - 1) / m .

Условные биномы

Если X ~ B ( n , p ) и Y | X ~ B ( X , q ) (условное распределение Y , заданное X ), тогда Y - простая биномиальная случайная величина с распределением Y ~ B ( n , pq ).

Например, представьте себе , бросая п шары в корзину U _X и принимая шары, удар и бросать их в другую корзину U _Y . Если р есть вероятность того , достиг U _X , то Х \ В ( п , р ) является количеством шаров , которые поражают U _X . Если q - это вероятность попасть в U _Y, то количество шаров, попавших в U _Y, равно Y ~ B ( X , q ) и, следовательно, Y ~ B ( n , pq ).

[Доказательство]

Так как и , по закону полной вероятности , ${\ Displaystyle Х \ сим В (п, р)}$ ${\ Displaystyle Y \ sim B (X, q)}$

{\ Displaystyle {\ begin {align} \ Pr [Y = m] & = \ sum _ {k = m} ^ {n} \ Pr [Y = m \ mid X = k] \ Pr [X = k] \ \ [2pt] & = \ sum _ {k = m} ^ {n} {\ binom {n} {k}} {\ binom {k} {m}} p ^ {k} q ^ {m} (1 -p) ^ {нк} (1-д) ^ {км} \ конец {выровнено}}}

Поскольку приведенное выше уравнение может быть выражено как ${\ displaystyle {\ tbinom {n} {k}} {\ tbinom {k} {m}} = {\ tbinom {n} {m}} {\ tbinom {nm} {km}},}$

{\ displaystyle \ Pr [Y = m] = \ sum _ {k = m} ^ {n} {\ binom {n} {m}} {\ binom {nm} {km}} p ^ {k} q ^ {m} (1-p) ^ {nk} (1-q) ^ {km}}

Факторинг и вытягивание всех сроков, которые не зависят от суммы, теперь дает ${\ displaystyle p ^ {k} = p ^ {m} p ^ {km}}$ ${\ displaystyle k}$

{\ displaystyle {\ begin {align} \ Pr [Y = m] & = {\ binom {n} {m}} p ^ {m} q ^ {m} \ left (\ sum _ {k = m} ^ {n} {\ binom {nm} {km}} p ^ {km} (1-p) ^ {nk} (1-q) ^ {km} \ right) \\ [2pt] & = {\ binom { n} {m}} (pq) ^ {m} \ left (\ sum _ {k = m} ^ {n} {\ binom {nm} {km}} \ left (p (1-q) \ right) ^ {km} (1-p) ^ {nk} \ right) \ end {выровнено}}}

После подстановки в выражение выше получаем ${\ displaystyle i = km}$

{\ displaystyle \ Pr [Y = m] = {\ binom {n} {m}} (pq) ^ {m} \ left (\ sum _ {i = 0} ^ {nm} {\ binom {nm} { i}} (p-pq) ^ {i} (1-p) ^ {nmi} \ right)}

Обратите внимание, что сумма (в скобках) выше равна по биномиальной теореме . Подставляя это в finally, дает ${\ displaystyle (p-pq + 1-p) ^ {nm}}$

{\ displaystyle {\ begin {align} \ Pr [Y = m] & = {\ binom {n} {m}} (pq) ^ {m} (p-pq + 1-p) ^ {nm} \\ [4pt] & = {\ binom {n} {m}} (pq) ^ {m} (1-pq) ^ {nm} \ end {align}}}

и таким образом по желанию. ${\ Displaystyle Y \ sim B (п, pq)}$

Распределение Бернулли

Распределение Бернулли является частным случаем биномиального распределения, где n = 1. Символически X ~ B (1, p ) имеет то же значение, что и X ~ Bernoulli ( p ). И наоборот, любое биномиальное распределение B ( n , p ) является распределением суммы n независимых испытаний Бернулли, Bernoulli ( p ), каждое с одинаковой вероятностью p .

Нормальное приближение

Биномиальная функция массы вероятности и приближение нормальной функции плотности вероятности для n = 6 и p = 0,5

Если n достаточно велико, то перекос распределения не слишком велик. В этом случае разумное приближение к B ( n , p ) дается нормальным распределением

{\ Displaystyle {\ mathcal {N}} (np, \, np (1-p)),}

и это базовое приближение можно просто улучшить, используя подходящую поправку на непрерывность . Базовое приближение обычно улучшается при увеличении n (по крайней мере на 20) и лучше, когда p не близко к 0 или 1. Можно использовать различные эмпирические правила, чтобы решить, достаточно ли n , а p достаточно далеко от крайних значений. ноль или один:

Одно правило состоит в том, что для n > 5 нормальное приближение является адекватным, если абсолютное значение асимметрии строго меньше 1/3; то есть, если

{\ displaystyle {\ frac {| 1-2p |} {\ sqrt {np (1-p)}}} = {\ frac {1} {\ sqrt {n}}} \ left | {\ sqrt {\ frac {1-p} {p}}} - {\ sqrt {\ frac {p} {1-p}}} \, \ right | <{\ frac {1} {3}}.}

Это можно уточнить с помощью теоремы Берри – Эссеена .

Более сильное правило гласит, что нормальное приближение подходит только в том случае, если все в пределах 3 стандартных отклонений от его среднего находится в пределах диапазона возможных значений; то есть, только если

{\ displaystyle \ mu \ pm 3 \ sigma = np \ pm 3 {\ sqrt {np (1-p)}} \ in (0, n).}

Это правило трех стандартных отклонений эквивалентно следующим условиям, которые также подразумевают первое правило выше.

{\ displaystyle n> 9 \ left ({\ frac {1-p} {p}} \ right) \ quad {\ text {and}} \ quad n> 9 \ left ({\ frac {p} {1- p}} \ right).}

[Доказательство]

Правило полностью эквивалентно требованию, чтобы ${\ displaystyle np \ pm 3 {\ sqrt {np (1-p)}} \ in (0, n)}$

{\ displaystyle np-3 {\ sqrt {np (1-p)}}> 0 \ quad {\ text {and}} \ quad np + 3 {\ sqrt {np (1-p)}} <n.}

Перемещение терминов вокруг урожайности:

{\ displaystyle np> 3 {\ sqrt {np (1-p)}} \ quad {\ text {and}} \ quad n (1-p)> 3 {\ sqrt {np (1-p)}}. }

Поскольку мы можем применить квадрат мощности и разделить на соответствующие множители и , чтобы получить желаемые условия: ${\ displaystyle 0 <p <1}$ ${\ displaystyle np ^ {2}}$ ${\ Displaystyle п (1-р) ^ {2}}$

{\ displaystyle n> 9 \ left ({\ frac {1-p} {p}} \ right) \ quad {\ text {and}} \ quad n> 9 \ left ({\ frac {p} {1- p}} \ right).}

Обратите внимание, что эти условия автоматически подразумевают это . С другой стороны, снова примените квадратный корень и разделите на 3, ${\ displaystyle n> 9}$

{\ displaystyle {\ frac {\ sqrt {n}} {3}}> {\ sqrt {\ frac {1-p} {p}}}> 0 \ quad {\ text {и}} \ quad {\ frac {\ sqrt {n}} {3}}> {\ sqrt {\ frac {p} {1-p}}}> 0.}

Вычитание второго набора неравенств из первого дает:

{\ displaystyle {\ frac {\ sqrt {n}} {3}}> {\ sqrt {\ frac {1-p} {p}}} - {\ sqrt {\ frac {p} {1-p}} }> - {\ frac {\ sqrt {n}} {3}};}

Итак, желаемое первое правило выполнено,

{\ displaystyle \ left | {\ sqrt {\ frac {1-p} {p}}} - {\ sqrt {\ frac {p} {1-p}}} \, \ right | <{\ frac {\ sqrt {n}} {3}}.}

Другое часто используемое правило состоит в том, что оба значения и должны быть больше или равны 5. Однако конкретное число варьируется от источника к источнику и зависит от того, насколько хорошее приближение требуется. В частности, если использовать 9 вместо 5, правило подразумевает результаты, указанные в предыдущих параграфах. ${\ displaystyle np}$ ${\ Displaystyle п (1-р)}$

[Доказательство]

Предположим, что оба значения и больше 9. Поскольку мы легко получаем, что ${\ displaystyle np}$ ${\ Displaystyle п (1-р)}$ ${\ displaystyle 0 <p <1}$

{\ displaystyle np \ geq 9> 9 (1-p) \ quad {\ text {and}} \ quad n (1-p) \ geq 9> 9p.}

Теперь нам нужно только разделить на соответствующие множители и , чтобы вывести альтернативную форму правила трех стандартных отклонений: ${\ displaystyle p}$ ${\ displaystyle 1-p}$

{\ displaystyle n> 9 \ left ({\ frac {1-p} {p}} \ right) \ quad {\ text {and}} \ quad n> 9 \ left ({\ frac {p} {1- p}} \ right).}

Ниже приведен пример применения коррекции непрерывности . Предположим , что кто -то желает вычислить Pr ( X ≤ 8) для бином случайная величина Х . Если Y имеет распределение, заданное нормальным приближением, то Pr ( X ≤ 8) аппроксимируется Pr ( Y ≤ 8.5). Добавление 0,5 - это поправка на непрерывность; неисправленное нормальное приближение дает значительно менее точные результаты.

Это приближение, известное как теорема де Муавра – Лапласа , значительно экономит время при выполнении вычислений вручную (точные вычисления с большим n очень обременительны); исторически это было первое использование нормального распределения, введенное в книге Абрахама де Муавра « Доктрина шансов» в 1738 году. В настоящее время его можно рассматривать как следствие центральной предельной теоремы, поскольку B ( n , p ) является сумма n независимых, одинаково распределенных переменных Бернулли с параметром p . Этот факт является основой проверки гипотезы , «z-критерия пропорции», для значения p с использованием x / n , доли выборки и оценки p в общей статистике теста .

Например, предположим, что кто-то произвольно выбирает n человек из большой совокупности и спрашивает их, согласны ли они с определенным утверждением. Доля согласных, конечно, будет зависеть от выборки. Если бы группы из n человек отбирались повторно и действительно случайным образом, пропорции следовали бы приблизительному нормальному распределению со средним значением, равным истинной пропорции p согласия в совокупности, и со стандартным отклонением.

{\ displaystyle \ sigma = {\ sqrt {\ frac {p (1-p)} {n}}}}

Пуассоновское приближение

Биномиальное распределение сходится к распределению Пуассона, когда количество попыток стремится к бесконечности, в то время как произведение np остается фиксированным или, по крайней мере, p стремится к нулю. Следовательно, распределение Пуассона с параметром λ = np можно использовать в качестве приближения к B ( n , p ) биномиального распределения, если n достаточно велико, а p достаточно мало. Согласно двум практическим правилам, это приближение хорошо, если n ≥ 20 и p ≤ 0,05, или если n ≥ 100 и np ≤ 10.

Относительно точности пуассоновского приближения см. Новак, гл. 4 и ссылки в нем.

Ограничение раздач

Предельная теорема Пуассона : когда n приближается к ∞, а p приближается к 0 прификсированномпроизведении np , биномиальное ( n , p ) распределение приближается к распределению Пуассона с математическим ожиданием λ = np .
Теорема де Муавра – Лапласа : когда n приближается к ∞, а p остается фиксированным, распределение

{\ displaystyle {\ frac {X-np} {\ sqrt {np (1-p)}}}}

приближается к нормальному распределению с ожидаемым значением 0 и дисперсией 1. Этот результат иногда свободно формулируют, говоря, что распределение X является асимптотически нормальным с ожидаемым значением np и дисперсией np (1 - p ). Этот результат является частным случаем центральной предельной теоремы .

Бета-распределение

Биномиальное распределение и бета-распределение - это разные взгляды на одну и ту же модель повторных испытаний Бернулли. Биномиальное распределение является PMF из $K$ успехов заданных $п$ независимых событий каждого с вероятностью $р$ успеха. Математически, когда $α = k + 1$ и $β = n - k + 1$ , бета-распределение и биномиальное распределение связаны коэффициентом $n + 1$ :

{\ Displaystyle \ OperatorName {Beta} (p; \ alpha; \ beta) = (n + 1) \ operatorname {Binom} (k; n; p)}

Бета-распределения также предоставляют семейство априорных распределений вероятностей для биномиальных распределений в байесовском выводе :

{\ Displaystyle P (p; \ alpha, \ beta) = {\ frac {p ^ {\ alpha -1} (1-p) ^ {\ beta -1}} {\ mathrm {B} (\ alpha, \ бета)}}.}

При равномерном априорном распределении апостериорное распределение вероятности успеха $p$ при $n$ независимых событиях с $k$ наблюдаемыми успехами является бета-распределением.

Статистические выводы

Оценка параметров

Когда n известно, параметр p может быть оценен с использованием доли успехов: эта оценка находится с использованием оценки максимального правдоподобия, а также метода моментов . Эта оценка является несмещенной и равномерно с минимальной дисперсией , что доказано с помощью теоремы Лемана – Шеффе , поскольку она основана на минимальной достаточной и полной статистике (например, x ). Это также согласуется как по вероятности, так и по MSE . ${\ displaystyle {\ widehat {p}} = {\ frac {x} {n}}.}$

Байесовская оценка в закрытой форме для p также существует при использовании бета-распределения в качестве сопряженного априорного распределения . При использовании общего , как до, то задняя средняя оценка является: . Байесовская оценка асимптотически эффективна, и по мере приближения размера выборки к бесконечности ( n → ∞) она приближается к решению MLE . Оценка Байеса смещена (насколько зависит от априорных значений), допустима и непротиворечива по вероятности. ${\ displaystyle \ operatorname {Beta} (\ alpha, \ beta)}$ ${\ displaystyle {\ widehat {p_ {b}}} = {\ frac {x + \ alpha} {n + \ alpha + \ beta}}}}$

Для особого случая использования стандартного равномерного распределения в качестве неинформативного априорного ( ) апостериорная средняя оценка становится ( апостериорная мода должна просто вести к стандартной оценке). Этот метод называется правилом преемственности , которое было введено в 18 веке Пьером-Симоном Лапласом . ${\ Displaystyle \ OperatorName {Beta} (\ альфа = 1, \ бета = 1) = U (0,1)}$ ${\ displaystyle {\ widehat {p_ {b}}} = {\ frac {x + 1} {n + 2}}}$

При оценке p с очень редкими событиями и малым n (например: если x = 0) использование стандартной оценки приводит к тому, что иногда нереально и нежелательно. В таких случаях существуют различные альтернативные оценки. Один из способов - использовать байесовскую оценку, что приведет к:) . Другой способ заключается в использовании верхней границы доверительного интервала , полученном с использованием правила трех : ) ${\ displaystyle {\ widehat {p}} = 0,}$ ${\ displaystyle {\ widehat {p_ {b}}} = {\ frac {1} {n + 2}}}$ ${\ displaystyle {\ widehat {p _ {\ text {правило 3}}}} = {\ frac {3} {n}}}$

Доверительные интервалы

Даже для довольно больших значений n фактическое распределение среднего существенно ненормально. Из-за этой проблемы было предложено несколько методов оценки доверительных интервалов.

В приведенных ниже уравнениях для доверительных интервалов переменные имеют следующее значение:

n ₁ - количество успехов из n , общее количество попыток
${\ displaystyle {\ widehat {p \,}} = {\ frac {n_ {1}} {n}}}$ доля успехов
${\ displaystyle z}$ это квантиль из стандартного нормального распределения (т.е. пробит ) , соответствующей целевой частоты появления ошибок . Например, для уровня достоверности 95% ошибка = 0,05, поэтому = 0,975 и = 1,96. ${\ displaystyle 1 - {\ tfrac {1} {2}} \ alpha}$ ${\ displaystyle \ alpha}$ ${\ displaystyle \ alpha}$ ${\ displaystyle 1 - {\ tfrac {1} {2}} \ alpha}$ ${\ displaystyle z}$

Метод Вальда

{\ displaystyle {\ widehat {p \,}} \ pm z {\ sqrt {\ frac {{\ widehat {p \,}} (1 - {\ widehat {p \,}})} {n}}} .}

Коррекции непрерывности 0,5 / п могут быть добавлены.

Метод Агрести – Коулла

{\ displaystyle {\ tilde {p}} \ pm z {\ sqrt {\ frac {{\ tilde {p}} (1 - {\ tilde {p}})} {n + z ^ {2}}}} }

Здесь оценка p изменена на

{\ displaystyle {\ tilde {p}} = {\ frac {n_ {1} + {\ frac {1} {2}} z ^ {2}} {n + z ^ {2}}}}

Этот метод подходит для и . См. Здесь . Для использования метода Уилсона (оценка) ниже.

{\ displaystyle n> 10}

{\ displaystyle n_ {1} \ neq 0, n}

{\ Displaystyle п \ leq 10}

{\ displaystyle n_ {1} = 0, n}

Арксинус метод

{\ displaystyle \ sin ^ {2} \ left (\ arcsin \ left ({\ sqrt {\ widehat {p \,}}} \ right) \ pm {\ frac {z} {2 {\ sqrt {n}} }}\Правильно).}

Метод Вильсона (оценка)

Обозначения в приведенной ниже формуле отличаются от предыдущих формул в двух отношениях:

Во-первых, z _x имеет несколько иную интерпретацию в приведенной ниже формуле: он имеет свое обычное значение « x- й квантиль стандартного нормального распределения», а не является сокращением для «(1 - x ) -го квантиля».
Во-вторых, в этой формуле не используется знак «плюс-минус» для определения двух границ. Вместо этого можно использовать для получения нижней границы или использовать для получения верхней границы. Например: для уровня достоверности 95% ошибка = 0,05, поэтому нижнюю границу можно получить с помощью , а верхнюю - с помощью . ${\ Displaystyle г = г _ {\ альфа / 2}}$ ${\ Displaystyle Z = Z_ {1- \ альфа / 2}}$ ${\ displaystyle \ alpha}$ ${\ displaystyle z = z _ {\ alpha /2}=z_{0.025}=-1.96}$ ${\ displaystyle z = z_ {1- \ alpha /2}=z_{0.975}=1.96}$

{\ displaystyle {\ frac {{\ widehat {p \,}} + {\ frac {z ^ {2}} {2n}} + z {\ sqrt {{\ frac {{\ widehat {p \,}}) (1 - {\ widehat {p \,}})} {n}} + {\ frac {z ^ {2}} {4n ^ {2}}}}}} {1 + {\ frac {z ^ { 2}} {n}}}}}

Сравнение

Точный метод ( Клоппера – Пирсона ) является наиболее консервативным.

Метод Вальда, хотя его часто рекомендуют в учебниках, является наиболее предвзятым.

Вычислительные методы

Генерация биномиальных случайных величин

Методы генерации случайных чисел, в которых маргинальное распределение является биномиальным распределением, хорошо известны.

Один из способов генерировать случайные выборки из биномиального распределения - использовать алгоритм инверсии. Для этого необходимо вычислить вероятность того, что $Pr (X = k)$ для всех значений $k$ от $0$ до $n$ . (Эти вероятности должны быть суммированы до значения, близкого к единице, чтобы охватить все пространство выборки.) Затем, используя генератор псевдослучайных чисел для генерации выборок равномерно между 0 и 1, можно преобразовать вычисленные выборки в дискретные числа с помощью вероятности, рассчитанные на первом этапе.

История

Это распределение было получено Якобом Бернулли . Он рассмотрел случай, когда p = r / ( r + s ), где p - вероятность успеха, а r и s - положительные целые числа. Блез Паскаль ранее рассматривал случай, когда p = 1/2.

Смотрите также

Логистическая регрессия
Полиномиальное распределение
Отрицательное биномиальное распределение
Бета-биномиальное распределение
Биномиальная мера, пример мультифрактальной меры .
Статистическая механика
Лемма о накоплении , результирующая вероятность, когда XOR -ing независимые булевы переменные

использованная литература

дальнейшее чтение

Хирш, Вернер З. (1957). «Биномиальное распределение - успех или неудача, насколько они вероятны?» . Введение в современную статистику . Нью-Йорк: Макмиллан. С. 140–153.
Нетер, Джон; Вассерман, Уильям; Уитмор, Джорджия (1988). Прикладная статистика (Третье изд.). Бостон: Аллин и Бэкон. С. 185–192. ISBN 0-205-10328-6.

внешние ссылки

Интерактивная графика: одномерные отношения распределения
Калькулятор формулы биномиального распределения
Разница двух биномиальных переменных: XY или | XY |
Запрос биномиального распределения вероятностей в WolframAlpha

Languages

In other projects

Биномиальное распределение - Binomial distribution

СОДЕРЖАНИЕ

Определения

Вероятностная функция масс

Пример

Кумулятивная функция распределения

Характеристики

Ожидаемая стоимость и отклонение

Высшие моменты

Режим

Медиана

Границы хвоста

Связанные дистрибутивы

Суммы биномов

Биномиальное распределение Пуассона

Соотношение двух биномиальных распределений

Условные биномы

Распределение Бернулли

Нормальное приближение

Пуассоновское приближение

Ограничение раздач

Бета-распределение

Статистические выводы

Оценка параметров

Доверительные интервалы

Метод Вальда

Метод Агрести – Коулла

Арксинус метод

Метод Вильсона (оценка)

Сравнение

Вычислительные методы

Генерация биномиальных случайных величин

История

Смотрите также

использованная литература

дальнейшее чтение

внешние ссылки