Студентифицированный остаток - Studentized residual
Часть серии по |
Регрессионный анализ |
---|
Модели |
Предварительный расчет |
Задний план |
В статистике , A Стьюдентизированные остаточный является частным от деления а остаточный путем оценки его стандартного отклонения . Это форма t- статистики Стьюдента с оценкой ошибки, варьирующейся между точками.
Это важный метод обнаружения выбросов . Он входит в число нескольких, названных в честь Уильяма Сили Госсета , писавшего под псевдонимом Студент . Разделение статистики на стандартное отклонение выборки называется студентизацией по аналогии со стандартизацией и нормализацией .
Мотивация
Основная причиной studentizing является то , что, в регрессионном анализе в виде многомерного распределения , дисперсии остатков при различных значениях входных переменных может отличаться, даже если отклонением от ошибок при различных значениях этих переменного ввода равно. Проблема заключается в разнице между ошибками и остатками в статистике , особенно в поведении остатков в регрессиях.
Рассмотрим простую модель линейной регрессии
Учитывая случайную выборку ( X i , Y i ), i = 1, ..., n , каждая пара ( X i , Y i ) удовлетворяет
где ошибки , являются независимыми , и все имеют одинаковую дисперсию . Эти остатки не являются истинными ошибками, но оценки , на основе наблюдаемых данных. Когда метод наименьших квадратов используется для оценки и , затем остатки , в отличие от ошибок , не могут быть независимыми , так как они удовлетворяют двум ограничениям
и
(Здесь & epsi я это я й ошибка, и это я й остатком.)
Остатки, в отличие от ошибок, не все имеют одинаковую дисперсию: дисперсия уменьшается по мере того, как соответствующее значение x удаляется от среднего значения x . Это не особенность самих данных, а регрессия, которая лучше соответствует значениям на концах домена. Это также отражается в функциях влияния различных точек данных на коэффициенты регрессии : конечные точки имеют большее влияние. Это также можно увидеть, потому что остатки в конечных точках сильно зависят от наклона подобранной линии, в то время как остатки в середине относительно нечувствительны к наклону. Тот факт, что дисперсии остатков различаются, несмотря на то, что все дисперсии истинных ошибок равны друг другу, является основной причиной необходимости студенизации.
Это не просто вопрос параметров популяции (среднее значение и стандартное отклонение) неизвестность - это то , что регрессии дают различные остаточные распределения при различных точках данных, в отличии от точечных оценок из одномерных распределений , которые разделяют общее распределение для остатков.
Задний план
Для этой простой модели, дизайн матрица является
а матрица шляпы H - это матрица ортогональной проекции на пространство столбцов матрицы плана:
Плечо ч II является я - й диагональный элемент матрицы шляпой. Дисперсия i- го остатка равна
В случае, если матрица проекта X имеет только два столбца (как в приведенном выше примере), это равно
В случае среднего арифметического матрица плана X имеет только один столбец ( вектор из единиц ), и это просто:
Расчет
Учитывая приведенные выше определения, студентизированная невязка тогда равна
где h ii - кредитное плечо , где - соответствующая оценка σ (см. ниже).
В случае среднего это равно:
Внутренняя и внешняя студентизация
Обычная оценка σ 2 - это внутренне стьюдентифицированная невязка.
где m - количество параметров в модели (в нашем примере 2).
Но если есть подозрение, что i- й случай является невероятно большим, он также не будет нормально распределен. Следовательно, разумно исключить i- е наблюдение из процесса оценки дисперсии, когда кто-то рассматривает, может ли i- й случай быть выбросом, и вместо этого использовать внешне стьюдентифицированный остаток, который равен
на основе всех остатков, кроме подозреваемого остатка i . Здесь необходимо подчеркнуть, что для подозреваемого i вычисляется с исключением i- го случая.
Если оценка σ 2 включает в я - й случай, то она называется внутренне стьюдентизированной Остаточное, (также известный как стандартизированы остаточный ). Если оценка используется вместо этого, за исключением в я - й случай, то он называется внешним стьюдентизированной , .
Распределение
Если ошибки независимы и нормально распределены с ожидаемым значением 0 и дисперсией σ 2 , то распределение вероятностей из я - й извне стьюдентизированной остаточного является Распределение Стьюдента с п - т - 1 степеней свободы , и может находиться в диапазоне от до .
С другой стороны, внутренние стьюдентифицированные остатки находятся в диапазоне , где ν = n - m - количество остаточных степеней свободы. Если t i представляет собой стьюдентизированный остаток, и снова предполагая, что ошибки являются независимыми одинаково распределенными гауссовскими переменными, то:
где t - случайная величина, распределенная как t-распределение Стьюдента с ν - 1 степенями свободы. Фактически, это означает, что t i 2 / ν следует бета-распределению B (1/2, ( ν - 1) / 2). Вышеуказанное распределение иногда называют тау-распределением ; он был впервые выведен Томпсоном в 1935 году.
Когда ν = 3, стьюдентифицированные остатки равномерно распределяются между и . Если имеется только одна остаточная степень свободы, приведенная выше формула для распределения внутренне стьюдентизированных остатков не применяется. В этом случае все t i равны +1 или -1 с вероятностью 50% для каждого.
Стандартное отклонение распределения стьюдентифицированных остатков всегда равно 1, но это не означает, что стандартное отклонение всех t i конкретного эксперимента равно 1. Например, внутренне стьюдентизированные остатки при подборе прямой, проходящей через ( 0, 0) в точки (1, 4), (2, −1), (2, −1) , и их стандартное отклонение не равно 1.
Обратите внимание, что любая пара стьюдентизированных остатков t i и t j (где ) НЕ iid Они имеют одинаковое распределение, но не являются независимыми из-за ограничений на остатки, которые должны суммироваться до 0 и быть ортогональными матрице плана. .
Программные реализации
Многие программы и статистические пакеты, такие как R , Python и т. Д., Включают реализации стьюдентизированного остатка.
Язык / Программа | Функция | Ноты |
---|---|---|
р | rstandard(model, ...) |
внутренне обучен. См. [2] |
р | rstudent(model, ...) |
внешне студентоз. См. [3] |
Смотрите также
- Расстояние Кука - мера изменений коэффициентов регрессии при удалении наблюдения
- Тест Граббса
- Нормализация (статистика)
- Неравенство Самуэльсона
- Стандартный балл
- Уильям Сили Госсет
Рекомендации
дальнейшее чтение
- Кук, Р. Деннис; Вайсберг, Сэнфорд (1982). Остатки и влияние в регрессии (Repr. Ed.). Нью-Йорк: Чепмен и Холл . ISBN 041224280X . Проверено 23 февраля 2013 года .