Регрессия Пуассона - Poisson regression

В статистике , Пуассон регрессия является обобщенной линейной моделью формой регрессионного анализа , используемого для модели подсчета данных и таблиц сопряженности . Регрессия Пуассона предполагает, что переменная отклика Y имеет распределение Пуассона , и предполагает, что логарифм ее ожидаемого значения может быть смоделирован линейной комбинацией неизвестных параметров . Модель регрессии Пуассона иногда называют лог-линейной моделью , особенно когда она используется для моделирования таблиц непредвиденных обстоятельств.

Отрицательная биномиальная регрессия является популярным обобщением регрессии Пуассона, поскольку она ослабляет строго ограничительное предположение о том, что дисперсия равна среднему значению, сделанному моделью Пуассона. Традиционная модель отрицательной биномиальной регрессии, широко известная как NB2, основана на распределении смеси Пуассона и гамма-излучения. Эта модель популярна, потому что она моделирует неоднородность Пуассона с помощью гамма-распределения.

Модели Пуассона регрессии обобщенные линейные модели с логарифмом в качестве (канонической) функции связи , и распределение Пуассона функции как предполагаемое распределение вероятности ответа.

Модели регрессии

Если - вектор независимых переменных , то модель принимает вид

где и . Иногда это записывается более компактно как

где x теперь ( n  + 1) -мерный вектор, состоящий из n независимых переменных, связанных с номером один. Здесь θ просто α сцепленный с β .

Таким образом, когда задана модель регрессии Пуассона θ и входной вектор x , прогнозируемое среднее значение связанного распределения Пуассона определяется выражением

Если Y i являются независимыми наблюдениями с соответствующими значениями x i переменных-предикторов, то θ можно оценить по максимальному правдоподобию . Оценки максимального правдоподобия не имеют выражения в замкнутой форме и должны быть найдены численными методами. Поверхность вероятности для регрессии Пуассона максимального правдоподобия всегда вогнута, что делает методы оценки Ньютона – Рафсона или другие методы на основе градиента подходящими.

Оценка параметров на основе максимального правдоподобия

Учитывая набор параметров θ и входной вектор x , среднее значение прогнозируемого распределения Пуассона , как указано выше, определяется выражением

и, таким образом, функция массы вероятности распределения Пуассона дается выражением

Теперь предположим, что нам дан набор данных, состоящий из m векторов , а также набор из m значений . Тогда для данного набора параметров θ вероятность получения этого конкретного набора данных определяется выражением

Методом максимального правдоподобия мы хотим найти набор параметров θ, который сделает эту вероятность как можно большей. Для этого уравнение сначала переписывается как функция правдоподобия через θ :

Обратите внимание, что выражение в правой части фактически не изменилось. С формулой в такой форме обычно сложно работать; вместо этого используется логарифм правдоподобия :

Обратите внимание, что параметры θ появляются только в первых двух членах каждого члена при суммировании. Следовательно, учитывая, что нас интересует только поиск наилучшего значения для θ, мы можем опустить y i ! и просто напишите

Чтобы найти максимум, нам нужно решить уравнение, которое не имеет решения в замкнутой форме. Однако отрицательная логарифм правдоподобия является выпуклой функцией, и поэтому стандартные методы выпуклой оптимизации , такие как градиентный спуск, могут применяться для поиска оптимального значения θ .

Пуассоновская регрессия на практике

Регрессия Пуассона может быть подходящей, когда зависимой переменной является счетчик, например, таких событий , как поступление телефонного звонка в центр обработки вызовов. События должны быть независимыми в том смысле, что поступление одного вызова не сделает другой более или менее вероятным, но считается, что вероятность в единицу времени событий связана с ковариатами, такими как время суток.

«Экспозиция» и смещение

Пуассон регрессия может быть также подходим для данных о скорости, где скорость является подсчетом событий , деленных на каком - то мере этого устройство экспозиции (определенная единица наблюдения). Например, биологи могут подсчитать количество видов деревьев в лесу: событиями будут наблюдения за деревьями, экспозиция - единицей площади, а норма - количеством видов на единицу площади. Демографы могут моделировать уровни смертности в географических регионах как количество смертей, разделенное на человеко-годы. В более общем смысле, частота событий может быть рассчитана как количество событий в единицу времени, что позволяет изменять окно наблюдения для каждой единицы. В этих примерах экспозиция представляет собой соответственно единицу площади, человеко-годы и единицу времени. В регрессии Пуассона это обрабатывается как смещение , где переменная воздействия входит в правую часть уравнения, но с оценкой параметра (для журнала (воздействия)), ограниченного до 1.

что подразумевает

Смещение в случае GLM в R может быть достигнуто с помощью offset()функции:

glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )

Чрезмерная дисперсия и нулевая инфляция

Характерной чертой распределения Пуассона является то, что его среднее значение равно его дисперсии. В определенных обстоятельствах будет обнаружено, что наблюдаемая дисперсия больше среднего; это называется избыточной дисперсией и указывает на то, что модель не подходит. Распространенной причиной является отсутствие соответствующих объясняющих переменных или зависимых наблюдений. При некоторых обстоятельствах проблема сверхдисперсии может быть решена путем использования вместо этого оценки квазиправдоподобия или отрицательного биномиального распределения .

Вер Хеф и Бовенг описали разницу между квазипуассоновским (также называемым сверхдисперсией с квази-правдоподобием) и отрицательным биномом (эквивалентным гамма-Пуассону) следующим образом: Если E ( Y ) = μ , квазипуассоновская модель предполагает var ( Y ) = θμ, в то время как гамма-Пуассон предполагает var ( Y ) = μ (1 +  κμ ), где θ - параметр квазипуассоновской сверхдисперсии, а κ - параметр формы отрицательного биномиального распределения . Для обеих моделей параметры оцениваются с использованием метода наименьших квадратов с итеративным повторным взвешиванием . Для квазипуассона веса равны μ / θ . Для отрицательного бинома веса равны μ / (1 +  κμ ). При большом μ и значительном экстрапуассоновском изменении отрицательные биномиальные веса ограничиваются 1 / κ . Вер Хеф и Бовенг обсудили пример, в котором они выбирали одно из двух, нанося среднеквадратичный остаток против среднего.

Другой распространенной проблемой регрессии Пуассона является избыток нулей: если работают два процесса, один из которых определяет наличие нулевых событий или каких-либо событий, а процесс Пуассона определяет, сколько событий существует, нулей будет больше, чем при регрессии Пуассона. предсказывать. Примером может служить раздача сигарет, выкуриваемых за час, членами группы, в которой некоторые люди не курят.

Другие обобщенные линейные модели, такие как отрицательная биномиальная модель или модель с нулевым надуванием, могут работать лучше в этих случаях.

Использование в анализе выживаемости

Регрессия Пуассона создает модели пропорциональных рисков, один класс анализа выживаемости : см. Модели пропорциональных рисков для описания моделей Кокса.

Расширения

Регуляризованная регрессия Пуассона

При оценке параметров регрессии Пуассона обычно пытаются найти значения для θ, которые максимизируют вероятность выражения формы

где т есть число примеров в наборе данных, и является функцией вероятности массовой из распределения Пуассона со средним набором к . К этой проблеме оптимизации можно добавить регуляризацию, вместо этого максимизируя

для некоторой положительной константы . Этот метод, аналогичный регрессии гребня , может уменьшить переобучение .

Смотрите также

использованная литература

дальнейшее чтение