Двусторонний дисперсионный анализ - Two-way analysis of variance

В статистике , то двусторонний дисперсионный анализ ( ANOVA ) является продолжением одностороннего ANOVA , который изучает влияние двух различных категориальных независимых переменных на одной непрерывной зависимой переменной . Двусторонний дисперсионный анализ не только направлен на оценку основного эффекта каждой независимой переменной, но и на наличие какого-либо взаимодействия между ними.

История

В 1925 году Рональд Фишер упоминает двусторонний дисперсионный анализ в своей знаменитой книге « Статистические методы для научных работников» (главы 7 и 8). В 1934 году Фрэнк Йейтс опубликовал процедуры для несбалансированного случая. С тех пор был выпущен обширный объем литературы. Эта тема была рассмотрена в 1993 году Ясунори Фудзикоши . В 2005 году Эндрю Гельман предложил другой подход ANOVA, рассматриваемый как многоуровневая модель .

Набор данных

Представим себе набор данных, для которого на зависимую переменную могут влиять два фактора, которые являются потенциальными источниками вариации. Первый фактор имеет уровни ( ), а второй - уровни ( ) . Каждая комбинация определяет лечение , общее количество процедур. Представим число повторностей для лечения путем , и пусть будет индекс повторности в этом лечении ( ) .

Из этих данных мы можем построить таблицу непредвиденных обстоятельств , где и , а общее количество реплик равно .

Эксперимента является сбалансированным , если каждое лечение имеет одинаковое число повторов, . В таком случае конструкция также считается ортогональной , что позволяет полностью различать влияние обоих факторов. Следовательно, мы можем писать , и .

Модель

Наблюдая вариацию среди всех точек данных, например, с помощью гистограммы , « вероятность может использоваться для описания такой вариации». Давайте , следовательно , обозначать на случайную величину , которая наблюдаемое значение является -м мерой для лечения . Эта двухсторонний ANOVA модель все эти переменная как изменения независимо друг от друга , и обычно вокруг среднего, с постоянной дисперсией, ( гомоскедастичность ):

.

В частности, среднее значение переменной отклика моделируется как линейная комбинация независимых переменных:

,

где - общее среднее значение, - аддитивный главный эффект уровня от первого фактора ( i-я строка в таблице сопряженности), - аддитивный основной эффект уровня от второго фактора ( j -й столбец в таблице сопряженности) и - неаддитивный эффект взаимодействия лечения от обоих факторов (ячейка в строке i и столбце j в таблице непредвиденных обстоятельств).

Другой эквивалентный способ описания двустороннего дисперсионного анализа - это упоминание о том, что помимо вариации, объясняемой факторами, остается некоторый статистический шум . Такое количество необъяснимых вариаций обрабатывается путем введения одной случайной величины для каждой точки данных , называемой ошибкой . Эти случайные величины рассматриваются как отклонения от средних значений и считаются независимыми и нормально распределенными:

.

Предположения

Следуя Гельману и Хиллу, предположения дисперсионного анализа и, в более общем плане, общей линейной модели , в порядке убывания важности:

  1. точки данных относятся к исследуемому научному вопросу;
  2. на среднее значение переменной отклика влияют аддитивно (если не член взаимодействия) и линейно факторы;
  3. ошибки независимы;
  4. ошибки имеют одинаковую дисперсию;
  5. ошибки нормально распределяются.

Оценка параметров

Чтобы обеспечить идентифицируемость параметров, мы можем добавить следующие ограничения «сумма к нулю»:

Проверка гипотезы

В классическом подходе проверка нулевых гипотез (о том, что факторы не действуют) достигается через их значимость, что требует вычисления суммы квадратов .

Проверка значимости члена взаимодействия может быть затруднена из-за потенциально большого количества степеней свободы .

Смотрите также

Заметки

Рекомендации