Разбиение сумм квадратов - Partition of sums of squares

Разбиение сумм квадратов является концепцией , которая пронизывает большую часть умозаключений статистики и описательной статистики . Точнее, это разделение сумм квадратов отклонений или ошибок . Математически сумма квадратов отклонений является немасштабированной или нескорректированной мерой дисперсии (также называемой изменчивостью ). При масштабировании по количеству степеней свободы он оценивает дисперсию или разброс наблюдений относительно их среднего значения. Разделение суммы квадратов отклонений на различные компоненты позволяет отнести общую изменчивость в наборе данных к разным типам или источникам изменчивости, при этом относительная важность каждого из них количественно определяется размером каждого компонента общей суммы квадратов.

Фон

Расстояние от любой точки в наборе данных до среднего значения - это отклонение. Это можно записать как , где - i-я точка данных, а - оценка среднего. Если все такие отклонения возведены в квадрат, а затем суммированы, как в , это дает «сумму квадратов» для этих данных.

Когда в коллекцию добавляется больше данных, сумма квадратов будет увеличиваться, за исключением маловероятных случаев, например, когда новые данные равны среднему значению. Поэтому обычно сумма квадратов будет расти вместе с размером сбора данных. Это проявление того, что он немасштабирован.

Во многих случаях количество степеней свободы - это просто количество данных в коллекции минус один. Мы записываем это как n  - 1, где n - количество данных.

Масштабирование (также известное как нормализация) означает корректировку суммы квадратов так, чтобы она не увеличивалась по мере увеличения размера сбора данных. Это важно, когда мы хотим сравнить выборки разных размеров, например, выборку из 100 человек по сравнению с выборкой из 20 человек. Если бы сумма квадратов не была нормализована, ее значение всегда было бы больше для выборки из 100 человек, чем для выборки из 20 человек. Чтобы масштабировать сумму квадратов, мы делим ее на степени свободы, т. Е. Вычисляем сумму квадратов на степень свободы или дисперсию. Стандартное отклонение , в свою очередь, представляет собой квадратный корень из дисперсии.

Выше описано, как сумма квадратов используется в описательной статистике; см. статью об общей сумме квадратов для применения этого широкого принципа к статистическим выводам .

Разбиение суммы квадратов в линейной регрессии

Теорема. Учитывая модель линейной регрессии, включающую константу , основанную на выборке, содержащей n наблюдений, общую сумму квадратов можно разделить следующим образом на объясненную сумму квадратов (ESS) и остаточную сумму квадратов (RSS):

где это уравнение эквивалентно каждой из следующих форм:

где это значение оценивается по линии регрессии , имеющие , ..., в качестве расчетных коэффициентов .

Доказательство

Требование, чтобы модель содержала константу или, что эквивалентно, матрица проекта содержала столбец единиц, гарантирует, что , т . Е.

Доказательство можно также выразить в векторной форме следующим образом:

Исключение терминов в последней строке использовало тот факт, что

Дальнейшее разбиение

Обратите внимание, что остаточная сумма квадратов может быть дополнительно разделена как сумма квадратов несовпадения плюс сумма квадратов из-за чистой ошибки.

Смотрите также

использованная литература

  • Бейли, РА (2008). Дизайн сравнительных экспериментов . Издательство Кембриджского университета. ISBN 978-0-521-68357-9. Главы перед публикацией доступны в Интернете.
  • Кристенсен, Рональд (2002). Плоские ответы на сложные вопросы: теория линейных моделей (Третье изд.). Нью-Йорк: Спрингер. ISBN 0-387-95361-2.
  • Уиттл, Питер (1963). Прогнозирование и регулирование . English Universities Press. ISBN 0-8166-1147-5.
    Переиздано как: Whittle, P. (1983). Прогнозирование и регулирование линейными методами наименьших квадратов . Университет Миннесоты Press. ISBN 0-8166-1148-3.
  • Уиттл, П. (20 апреля 2000 г.). Вероятность через ожидание (4-е изд.). Springer. ISBN 0-387-98955-2.