Бета-биномиальное распределение - Beta-binomial distribution

Вероятностная функция масс
Вероятностная функция масс для бета-биномиального распределения
Кумулятивная функция распределения
Кумулятивная функция распределения вероятностей для бета-биномиального распределения
Параметры nN 0 - количество испытаний ( реальных ) ( реальных )

Служба поддержки k ∈ {0,…, n  }
PMF
CDF

где 3 F 2 ( a ; b ; x) - обобщенная гипергеометрическая функция
Иметь в виду
Дисперсия
Асимметрия
Бывший. эксцесс См. Текст
MGF где - гипергеометрическая функция
CF
PGF

В теории вероятностей и статистике , то бета-биномиальное распределение представляет собой семейство дискретных вероятностных распределений на конечные поддержки неотрицательных целых чисел , возникающих , когда вероятность успеха в каждом из фиксированных или известного числа испытаний Бернулли либо неизвестна , либо случайным образом . Бета-биномиальное распределение - это биномиальное распределение, в котором вероятность успеха в каждом из n испытаний не фиксируется, а выбирается случайным образом из бета-распределения . Он часто используется в байесовской статистике , эмпирических байесовских методах и классической статистике для выявления избыточной дисперсии в распределенных данных биномиального типа.

В случае, когда n  = 1, оно сводится к распределению Бернулли, где вероятность p задается бета-распределением . При α  =  β  = 1 это дискретное равномерное распределение от 0 до  n . Он также произвольно хорошо аппроксимирует биномиальное распределение для больших значений α и  β . Точно так же оно содержит отрицательное биномиальное распределение в пределе больших β и n . Бета-биномиальный является одномерной версией Дирихле- полиномиального распределения , как биномиальные и бета - распределения являются одномерными версиями мультиномиальных и распределений Дирихля соответственно.

Частный случай, когда α и β - целые числа, также известен как отрицательное гипергеометрическое распределение .

Мотивация и вывод

Как составное распределение

Бета распределение является сопряженным распределение в биномиальное распределение . Этот факт приводит к аналитически поддающемуся анализу составному распределению, при котором можно думать о параметре в биномиальном распределении, как о случайно взятом из бета-распределения. А именно, если

тогда

где Bin ( n , p ) обозначает биномиальное распределение , а p - случайная величина с бета-распределением .

тогда составное распределение дается выражением

Используя свойства бета-функции , это можно альтернативно записать

Бета-бином как модель урны

Бета-биномиальное распределение также может быть мотивировано моделью урны для положительных целочисленных значений α и β , известной как модель урны Полиа . В частности, представьте урну, содержащую α красных шаров и β черных шаров, в которой выполняются случайные розыгрыши. Если наблюдается красный шар, то в урну возвращаются два красных шара. Аналогичным образом, если выпадает черный шар, в урну возвращаются два черных шара. Если это повторить n раз, то вероятность наблюдения k красных шаров следует бета-биномиальному распределению с параметрами n , α и  β .

Если случайные розыгрыши выполняются с простой заменой (в урну не добавляются шары, превышающие наблюдаемый шар), то распределение следует биномиальному распределению, а если случайные розыгрыши выполняются без замены, распределение следует гипергеометрическому распределению .

Моменты и свойства

Первые три сырые моменты являются

и эксцесса является

Позволить мы отмечаем, намекая, что среднее можно записать в виде

и дисперсия как

где . Этот параметр известен как «внутриклассовая» или «внутрикластерная» корреляция. Именно эта положительная корреляция приводит к чрезмерной дисперсии.

Точечные оценки

Метод моментов

Метод моментов оценок можно получить, отметив , первый и второй моменты бета-биномиального , а именно

и установив эти необработанные моменты равными первому и второму необработанным моментам выборки соответственно

и решая относительно α и β, получаем

Эти оценки могут быть бессмысленными отрицательными, что свидетельствует о том, что данные либо не диспергированы, либо недостаточно диспергированы относительно биномиального распределения. В этом случае альтернативными кандидатами являются биномиальное и гипергеометрическое распределение соответственно.

Оценка максимального правдоподобия

Хотя оценки максимального правдоподобия в закрытой форме непрактичны, учитывая, что PDF-файл состоит из общих функций (гамма-функция и / или бета-функции), их можно легко найти с помощью прямой численной оптимизации. Оценки максимального правдоподобия на основе эмпирических данных могут быть вычислены с использованием общих методов аппроксимации полиномиальных распределений Полиа, методы для которых описаны в (Minka 2003). Пакет R VGAM с помощью функции vglm с помощью функции максимального правдоподобия облегчает подгонку моделей типа glm с ответами, распределенными согласно бета-биномиальному распределению. Не требуется, чтобы n было фиксированным на протяжении всех наблюдений.

Пример

Следующие данные показывают количество детей мужского пола среди первых 12 детей в семье размером 13 в 6115 семей, взятых из больничных записей в Саксонии XIX века (Sokal and Rohlf, стр. 59 из Lindsey). 13-й ребенок игнорируется, чтобы смягчить эффект неслучайной остановки семей при достижении желаемого пола.

Самцы 0 1 2 3 4 5 6 7 8 9 10 11 12
Семьи 3 24 104 286 670 1033 1343 1112 829 478 181 45 7

Первые два примерных момента:

и поэтому метод оценок моментов

В максимальной вероятностные оценки могут быть найдены численно

а максимальное логарифмическое правдоподобие равно

из которого находим AIC

AIC для конкурирующей биномиальной модели составляет AIC = 25070,34, и, таким образом, мы видим, что бета-биномиальная модель обеспечивает лучшее соответствие данным, т.е. есть свидетельства чрезмерной дисперсии. Трайверс и Уиллард теоретически обосновывают неоднородность (также известную как « взрывоопасность ») гендерной предрасположенности потомства млекопитающих (то есть чрезмерной дисперсии).

Превосходная посадка особенно заметна среди хвостов.

Самцы 0 1 2 3 4 5 6 7 8 9 10 11 12
Наблюдаемые семьи 3 24 104 286 670 1033 1343 1112 829 478 181 45 7
Соответствующее ожидаемое (бета-биномиальное) 2.3 22,6 104,8 310,9 655,7 1036,2 1257,9 1182,1 853,6 461,9 177,9 43,8 5.2
Подгоняемое ожидаемое (биномиальное p = 0,519215) 0,9 12.1 71,8 258,5 628,1 1085,2 1367,3 1265,6 854,2 410,0 132,8 26,1 2.3

Дальнейшие байесовские соображения

Распределения удобно повторно параметризовать так, чтобы ожидаемое среднее априорное значение было единственным параметром: Пусть

куда

так что

Апостериорное распределение ρ ( & thetas ;  |  к ) также бета - распределения:

А также

в то время как маргинальное распределение m ( k | μ , M ) задается формулой

Подставляя обратно M и μ, через и получается:

которое является ожидаемым бета-биномиальным распределением с параметрами и .

Мы также можем использовать метод повторных ожиданий, чтобы найти ожидаемое значение предельных моментов. Запишем нашу модель в виде двухэтапной модели составной выборки. Пусть k i будет количеством успешных попыток из n i для события i :

Мы можем найти повторные оценки моментов для среднего и дисперсии, используя моменты для распределений в двухступенчатой ​​модели:

(Здесь мы использовали закон полного ожидания и закон полной дисперсии .)

Нам нужны точечные оценки для и . Расчетное среднее значение рассчитывается по выборке.

Оценка гиперпараметра M получается с использованием моментных оценок дисперсии двухэтапной модели:

Решение:

куда

Поскольку теперь у нас есть точечные оценки параметров, и для основного распределения мы хотели бы найти точечную оценку вероятности успеха для события i . Это средневзвешенная оценка события и . Учитывая наши точечные оценки для предыдущего, мы можем теперь подставить эти значения, чтобы найти точечную оценку для апостериорного

Факторы усадки

Мы можем записать апостериорную оценку как средневзвешенную:

где называется коэффициентом усадки .

Связанные дистрибутивы

Смотрите также

использованная литература

внешние ссылки