Студентифицированный остаток - Studentized residual

В статистике , A Стьюдентизированные остаточный является частным от деления а остаточный путем оценки его стандартного отклонения . Это форма t- статистики Стьюдента с оценкой ошибки, варьирующейся между точками.

Это важный метод обнаружения выбросов . Он входит в число нескольких, названных в честь Уильяма Сили Госсета , писавшего под псевдонимом Студент . Разделение статистики на стандартное отклонение выборки называется студентизацией по аналогии со стандартизацией и нормализацией .

Мотивация

Основная причиной studentizing является то , что, в регрессионном анализе в виде многомерного распределения , дисперсии остатков при различных значениях входных переменных может отличаться, даже если отклонением от ошибок при различных значениях этих переменного ввода равно. Проблема заключается в разнице между ошибками и остатками в статистике , особенно в поведении остатков в регрессиях.

Рассмотрим простую модель линейной регрессии

Учитывая случайную выборку ( X i Y i ), i  = 1, ...,  n , каждая пара ( X i Y i ) удовлетворяет

где ошибки , являются независимыми , и все имеют одинаковую дисперсию . Эти остатки не являются истинными ошибками, но оценки , на основе наблюдаемых данных. Когда метод наименьших квадратов используется для оценки и , затем остатки , в отличие от ошибок , не могут быть независимыми , так как они удовлетворяют двум ограничениям

и

(Здесь & epsi я это я й ошибка, и это я й остатком.)

Остатки, в отличие от ошибок, не все имеют одинаковую дисперсию: дисперсия уменьшается по мере того, как соответствующее значение x удаляется от среднего значения x . Это не особенность самих данных, а регрессия, которая лучше соответствует значениям на концах домена. Это также отражается в функциях влияния различных точек данных на коэффициенты регрессии : конечные точки имеют большее влияние. Это также можно увидеть, потому что остатки в конечных точках сильно зависят от наклона подобранной линии, в то время как остатки в середине относительно нечувствительны к наклону. Тот факт, что дисперсии остатков различаются, несмотря на то, что все дисперсии истинных ошибок равны друг другу, является основной причиной необходимости студенизации.

Это не просто вопрос параметров популяции (среднее значение и стандартное отклонение) неизвестность - это то , что регрессии дают различные остаточные распределения при различных точках данных, в отличии от точечных оценок из одномерных распределений , которые разделяют общее распределение для остатков.

Задний план

Для этой простой модели, дизайн матрица является

а матрица шляпы H - это матрица ортогональной проекции на пространство столбцов матрицы плана:

Плечо ч II является я - й диагональный элемент матрицы шляпой. Дисперсия i- го остатка равна

В случае, если матрица проекта X имеет только два столбца (как в приведенном выше примере), это равно

В случае среднего арифметического матрица плана X имеет только один столбец ( вектор из единиц ), и это просто:

Расчет

Учитывая приведенные выше определения, студентизированная невязка тогда равна

где h ii - кредитное плечо , где - соответствующая оценка σ (см. ниже).

В случае среднего это равно:

Внутренняя и внешняя студентизация

Обычная оценка σ 2 - это внутренне стьюдентифицированная невязка.

где m - количество параметров в модели (в нашем примере 2).

Но если  есть подозрение, что i- й случай является невероятно большим, он также не будет нормально распределен. Следовательно, разумно исключить i-  е наблюдение из процесса оценки дисперсии, когда кто-то рассматривает, может ли i-  й случай быть выбросом, и вместо этого использовать внешне стьюдентифицированный остаток, который равен

на основе всех остатков, кроме подозреваемого  остатка i . Здесь необходимо подчеркнуть, что для подозреваемого i вычисляется с  исключением i- го случая.

Если оценка σ 2 включает в я -  й случай, то она называется внутренне стьюдентизированной Остаточное, (также известный как стандартизированы остаточный ). Если оценка используется вместо этого, за исключением в я -  й случай, то он называется внешним стьюдентизированной , .

Распределение

Если ошибки независимы и нормально распределены с ожидаемым значением 0 и дисперсией σ 2 , то распределение вероятностей из я - й извне стьюдентизированной остаточного является Распределение Стьюдента с п  -  т  - 1 степеней свободы , и может находиться в диапазоне от до .

С другой стороны, внутренние стьюдентифицированные остатки находятся в диапазоне , где ν = n  -  m - количество остаточных степеней свободы. Если t i представляет собой стьюдентизированный остаток, и снова предполагая, что ошибки являются независимыми одинаково распределенными гауссовскими переменными, то:

где t - случайная величина, распределенная как t-распределение Стьюдента с ν  - 1 степенями свободы. Фактически, это означает, что t i 2 / ν следует бета-распределению B (1/2, ( ν  - 1) / 2). Вышеуказанное распределение иногда называют тау-распределением ; он был впервые выведен Томпсоном в 1935 году.

Когда ν = 3, стьюдентифицированные остатки равномерно распределяются между и . Если имеется только одна остаточная степень свободы, приведенная выше формула для распределения внутренне стьюдентизированных остатков не применяется. В этом случае все t i равны +1 или -1 с вероятностью 50% для каждого.

Стандартное отклонение распределения стьюдентифицированных остатков всегда равно 1, но это не означает, что стандартное отклонение всех t i конкретного эксперимента равно 1. Например, внутренне стьюдентизированные остатки при подборе прямой, проходящей через ( 0, 0) в точки (1, 4), (2, −1), (2, −1) , и их стандартное отклонение не равно 1.

Обратите внимание, что любая пара стьюдентизированных остатков t i и t j (где ) НЕ iid Они имеют одинаковое распределение, но не являются независимыми из-за ограничений на остатки, которые должны суммироваться до 0 и быть ортогональными матрице плана. .

Программные реализации

Многие программы и статистические пакеты, такие как R , Python и т. Д., Включают реализации стьюдентизированного остатка.

Язык / Программа Функция Ноты
р rstandard(model, ...) внутренне обучен. См. [2]
р rstudent(model, ...) внешне студентоз. См. [3]


Смотрите также

Рекомендации

дальнейшее чтение