Вероятностная функция масс
|
Кумулятивная функция распределения
|
Параметры |
n ∈ N 0 - количество испытаний ( реальных ) ( реальных )
|
Служба поддержки |
k ∈ {0,…, n } |
PMF |
|
CDF |
где 3 F 2 ( a ; b ; x) - обобщенная гипергеометрическая функция
|
Иметь в виду |
|
Дисперсия |
|
Асимметрия |
|
Бывший. эксцесс |
См. Текст |
MGF |
где - гипергеометрическая функция
|
CF |
|
PGF |
|
В теории вероятностей и статистике , то бета-биномиальное распределение представляет собой семейство дискретных вероятностных распределений на конечные поддержки неотрицательных целых чисел , возникающих , когда вероятность успеха в каждом из фиксированных или известного числа испытаний Бернулли либо неизвестна , либо случайным образом . Бета-биномиальное распределение - это биномиальное распределение, в котором вероятность успеха в каждом из n испытаний не фиксируется, а выбирается случайным образом из бета-распределения . Он часто используется в байесовской статистике , эмпирических байесовских методах и классической статистике для выявления избыточной дисперсии в распределенных данных биномиального типа.
В случае, когда n = 1, оно сводится к распределению Бернулли, где вероятность p задается бета-распределением . При α = β = 1 это дискретное равномерное распределение от 0 до n . Он также произвольно хорошо аппроксимирует биномиальное распределение для больших значений α и β . Точно так же оно содержит отрицательное биномиальное распределение в пределе больших β и n . Бета-биномиальный является одномерной версией Дирихле- полиномиального распределения , как биномиальные и бета - распределения являются одномерными версиями мультиномиальных и распределений Дирихля соответственно.
Частный случай, когда α и β - целые числа, также известен как отрицательное гипергеометрическое распределение .
Мотивация и вывод
Как составное распределение
Бета распределение является сопряженным распределение в биномиальное распределение . Этот факт приводит к аналитически поддающемуся анализу составному распределению, при котором можно думать о параметре в биномиальном распределении, как о случайно взятом из бета-распределения. А именно, если
тогда
где Bin ( n , p ) обозначает биномиальное распределение , а p - случайная величина с бета-распределением .
тогда составное распределение дается выражением
Используя свойства бета-функции , это можно альтернативно записать
Бета-бином как модель урны
Бета-биномиальное распределение также может быть мотивировано моделью урны для положительных целочисленных значений α и β , известной как модель урны Полиа . В частности, представьте урну, содержащую α красных шаров и β черных шаров, в которой выполняются случайные розыгрыши. Если наблюдается красный шар, то в урну возвращаются два красных шара. Аналогичным образом, если выпадает черный шар, в урну возвращаются два черных шара. Если это повторить n раз, то вероятность наблюдения k красных шаров следует бета-биномиальному распределению с параметрами n , α и β .
Если случайные розыгрыши выполняются с простой заменой (в урну не добавляются шары, превышающие наблюдаемый шар), то распределение следует биномиальному распределению, а если случайные розыгрыши выполняются без замены, распределение следует гипергеометрическому распределению .
Моменты и свойства
Первые три сырые моменты являются
и эксцесса является
Позволить мы отмечаем, намекая, что среднее можно записать в виде
и дисперсия как
где . Этот параметр известен как «внутриклассовая» или «внутрикластерная» корреляция. Именно эта положительная корреляция приводит к чрезмерной дисперсии.
Точечные оценки
Метод моментов
Метод моментов оценок можно получить, отметив , первый и второй моменты бета-биномиального , а именно
и установив эти необработанные моменты равными первому и второму необработанным моментам выборки соответственно
и решая относительно α и β, получаем
Эти оценки могут быть бессмысленными отрицательными, что свидетельствует о том, что данные либо не диспергированы, либо недостаточно диспергированы относительно биномиального распределения. В этом случае альтернативными кандидатами являются биномиальное и гипергеометрическое распределение соответственно.
Оценка максимального правдоподобия
Хотя оценки максимального правдоподобия в закрытой форме непрактичны, учитывая, что PDF-файл состоит из общих функций (гамма-функция и / или бета-функции), их можно легко найти с помощью прямой численной оптимизации. Оценки максимального правдоподобия на основе эмпирических данных могут быть вычислены с использованием общих методов аппроксимации полиномиальных распределений Полиа, методы для которых описаны в (Minka 2003).
Пакет R VGAM с помощью функции vglm с помощью функции максимального правдоподобия облегчает подгонку моделей типа glm с ответами, распределенными согласно бета-биномиальному распределению. Не требуется, чтобы n было фиксированным на протяжении всех наблюдений.
Пример
Следующие данные показывают количество детей мужского пола среди первых 12 детей в семье размером 13 в 6115 семей, взятых из больничных записей в Саксонии XIX века (Sokal and Rohlf, стр. 59 из Lindsey). 13-й ребенок игнорируется, чтобы смягчить эффект неслучайной остановки семей при достижении желаемого пола.
Самцы |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12
|
Семьи |
3 |
24 |
104 |
286 |
670 |
1033 |
1343 |
1112 |
829 |
478 |
181 |
45 |
7
|
Первые два примерных момента:
и поэтому метод оценок моментов
В максимальной вероятностные оценки могут быть найдены численно
а максимальное логарифмическое правдоподобие равно
из которого находим AIC
AIC для конкурирующей биномиальной модели составляет AIC = 25070,34, и, таким образом, мы видим, что бета-биномиальная модель обеспечивает лучшее соответствие данным, т.е. есть свидетельства чрезмерной дисперсии. Трайверс и Уиллард теоретически обосновывают неоднородность (также известную как « взрывоопасность ») гендерной предрасположенности потомства млекопитающих (то есть чрезмерной дисперсии).
Превосходная посадка особенно заметна среди хвостов.
Самцы |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12
|
Наблюдаемые семьи |
3 |
24 |
104 |
286 |
670 |
1033 |
1343 |
1112 |
829 |
478 |
181 |
45 |
7
|
Соответствующее ожидаемое (бета-биномиальное) |
2.3 |
22,6 |
104,8 |
310,9 |
655,7 |
1036,2 |
1257,9 |
1182,1 |
853,6 |
461,9 |
177,9 |
43,8 |
5.2
|
Подгоняемое ожидаемое (биномиальное p = 0,519215) |
0,9 |
12.1 |
71,8 |
258,5 |
628,1 |
1085,2 |
1367,3 |
1265,6 |
854,2 |
410,0 |
132,8 |
26,1 |
2.3
|
Дальнейшие байесовские соображения
Распределения удобно повторно параметризовать так, чтобы ожидаемое среднее априорное значение было единственным параметром: Пусть
куда
так что
Апостериорное распределение ρ ( & thetas ; | к ) также бета - распределения:
А также
в то время как маргинальное распределение m ( k | μ , M ) задается формулой
Подставляя обратно M и μ, через и получается:
которое является ожидаемым бета-биномиальным распределением с параметрами и .
Мы также можем использовать метод повторных ожиданий, чтобы найти ожидаемое значение предельных моментов. Запишем нашу модель в виде двухэтапной модели составной выборки. Пусть k i будет количеством успешных попыток из n i для события i :
Мы можем найти повторные оценки моментов для среднего и дисперсии, используя моменты для распределений в двухступенчатой модели:
(Здесь мы использовали закон полного ожидания и закон полной дисперсии .)
Нам нужны точечные оценки для и . Расчетное среднее значение рассчитывается по выборке.
Оценка гиперпараметра M получается с использованием моментных оценок дисперсии двухэтапной модели:
Решение:
куда
Поскольку теперь у нас есть точечные оценки параметров, и для основного распределения мы хотели бы найти точечную оценку вероятности успеха для события i . Это средневзвешенная оценка события и . Учитывая наши точечные оценки для предыдущего, мы можем теперь подставить эти значения, чтобы найти точечную оценку для апостериорного
Факторы усадки
Мы можем записать апостериорную оценку как средневзвешенную:
где называется коэффициентом усадки .
Связанные дистрибутивы
-
где - дискретное равномерное распределение .
Смотрите также
использованная литература
внешние ссылки