Неподходящая сумма квадратов - Lack-of-fit sum of squares

В статистике , сумма квадратов из - за отсутствия приступа , или более сжато в сумме отсутствия правового приступе квадратов , является одним из компонентов разбиения суммы квадратов невязок в качестве дисперсионного анализа , используемого в числитель в F-тест на нулевой гипотезы , что говорит , что предлагаемая модель хорошо подходит. Другой компонент - это сумма квадратов чистой ошибки .

Сумма квадратов чистой ошибки - это сумма квадратов отклонений каждого значения зависимой переменной от среднего значения по всем наблюдениям, совместно использующим ее значение (я) независимой переменной . Это ошибки, которых нельзя было бы избежать с помощью какого-либо прогнозного уравнения, которое назначало прогнозируемое значение для зависимой переменной как функцию значения (значений) независимой (ых) переменной (ей). Оставшаяся часть остаточной суммы квадратов объясняется отсутствием соответствия модели, поскольку было бы математически возможно полностью устранить эти ошибки.

Набросок идеи

Чтобы сумма квадратов несовпадения отличилась от суммы квадратов остатков , должно быть более одного значения переменной ответа по крайней мере для одного из значений набора переменных-предикторов. Например, подумайте о том, чтобы подобрать линию

методом наименьших квадратов . В качестве оценок α и β принимаются значения, которые минимизируют сумму квадратов остатков, то есть сумму квадратов разностей между наблюдаемым значением y и подобранным значением y . Чтобы получить неподходящую сумму квадратов, которая отличается от остаточной суммы квадратов, необходимо наблюдать более одного значения y для каждого из одного или нескольких значений x . Затем делят «сумму квадратов из-за ошибки», т. Е. Сумму квадратов остатков, на два компонента:

сумма квадратов из-за ошибки = (сумма квадратов из-за "чистой" ошибки) + (сумма квадратов из-за отсутствия соответствия).

Сумма квадратов из-за "чистой" ошибки - это сумма квадратов разностей между каждым наблюдаемым значением y и средним значением всех значений y, соответствующих одному и тому же значению x .

Сумма квадратов из-за недостаточной подгонки представляет собой взвешенную сумму квадратов разностей между каждым средним значением y, соответствующим одному и тому же значению x и соответствующему подобранному значению y , причем вес в каждом случае является просто количеством наблюдаемых y -значения для этого x -значения. Поскольку свойство регрессии наименьших квадратов состоит в том, что вектор, компоненты которого являются "чистыми ошибками", и вектор компонентов несовпадения ортогональны друг другу, выполняется следующее равенство:

Следовательно, остаточная сумма квадратов полностью разложена на две составляющие.

Математические детали

Рассмотрите возможность подбора строки с одной переменной-предиктором. Определите i как индекс каждого из n различных значений x , j как индекс наблюдений переменной ответа для данного значения x и n i как количество значений y, связанных с i- м значением x . Значение каждого наблюдения переменной ответа может быть представлено как

Позволять

- оценки методом наименьших квадратов ненаблюдаемых параметров α и β на основе наблюдаемых значений x i и Y i j .   

Позволять

быть подобранными значениями переменной ответа. Затем

- остатки , которые представляют собой наблюдаемые оценки ненаблюдаемых значений члена ошибки  ε ij . Из-за природы метода наименьших квадратов весь вектор невязок с  

скалярные компоненты, обязательно удовлетворяет двум ограничениям

Таким образом, он ограничен лежать в ( N  - 2) -мерном подпространстве R N , то есть существует N  - 2 « степеней свободы для ошибки».  

Теперь позвольте

быть средним всех значений Y, связанных с i- м значением x .

Мы разделим сумму квадратов из-за ошибки на две составляющие:

Распределения вероятностей

Суммы квадратов

Предположим , что векторы ошибок е I J являются независимыми и нормально распределены с ожидаемым значением  0 и дисперсией сг 2 . Мы рассматриваем x i как постоянный, а не случайный. Тогда переменные отклика Y i j случайны только потому, что ошибки ε i j случайны.      

Можно показать, что если прямолинейная модель верна, то сумма квадратов ошибки, деленная на дисперсию ошибки,

имеет распределение хи-квадрат с N  - 2 степенями свободы.

Более того, учитывая общее количество наблюдений N , количество уровней независимой переменной n и количество параметров в модели p :

  • Сумма квадратов чистой ошибки, деленная на дисперсию ошибки σ 2 , имеет распределение хи-квадрат с N  -  n степенями свободы;
  • Сумма квадратов из-за отсутствия аппроксимации, деленная на дисперсию ошибки σ 2 , имеет распределение хи-квадрат с n  -  p степенями свободы (здесь p  = 2, поскольку в линейной модели есть два параметра);
  • Две суммы квадратов вероятностно независимы.

Статистика теста

Отсюда следует, что статистика

имеет F-распределение с соответствующим числом степеней свободы в числителе и знаменателе, при условии, что модель верна. Если модель неверна, то распределение вероятностей знаменателя остается таким, как указано выше, а числитель и знаменатель по-прежнему независимы. Но числитель тогда имеет нецентральное распределение хи-квадрат , и, следовательно, частное в целом имеет нецентральное F-распределение .

Один использует эту F-статистику для проверки нулевой гипотезы о том, что линейная модель верна. Поскольку нецентральное F-распределение стохастически больше, чем (центральное) F-распределение, отвергают нулевую гипотезу, если F-статистика больше критического значения F. Критическое значение соответствует интегральной функции распределения от распределения F с й равно требуемой уровне достоверности , а также степени свободы г 1  = ( п  -  р ) и г 2  = ( N  -  п ).

Можно показать, что из допущений о нормальном распределении ошибок и независимости следует, что этот тест на отсутствие соответствия является тестом отношения правдоподобия для этой нулевой гипотезы.

Смотрите также

Ноты