Двусторонний дисперсионный анализ - Two-way analysis of variance

В статистике , то двусторонний дисперсионный анализ ( ANOVA ) является продолжением одностороннего ANOVA , который изучает влияние двух различных категориальных независимых переменных на одной непрерывной зависимой переменной . Двусторонний дисперсионный анализ не только направлен на оценку основного эффекта каждой независимой переменной, но и на наличие какого-либо взаимодействия между ними.

История

В 1925 году Рональд Фишер упоминает двусторонний дисперсионный анализ в своей знаменитой книге « Статистические методы для научных работников» (главы 7 и 8). В 1934 году Фрэнк Йейтс опубликовал процедуры для несбалансированного случая. С тех пор был выпущен обширный объем литературы. Эта тема была рассмотрена в 1993 году Ясунори Фудзикоши . В 2005 году Эндрю Гельман предложил другой подход ANOVA, рассматриваемый как многоуровневая модель .

Набор данных

Представим себе набор данных, для которого на зависимую переменную могут влиять два фактора, которые являются потенциальными источниками вариации. Первый фактор имеет уровни ( ), а второй - уровни ( ) . Каждая комбинация определяет лечение , общее количество процедур. Представим число повторностей для лечения путем , и пусть будет индекс повторности в этом лечении ( ) . ${\ displaystyle I}$ ${\ displaystyle i \ in \ {1, \ ldots, I \}}$ ${\ displaystyle J}$ ${\ displaystyle j \ in \ {1, \ ldots, J \}}$ ${\ displaystyle (я, j)}$ ${\ displaystyle I \ times J}$ ${\ displaystyle (я, j)}$ ${\ displaystyle n_ {ij}}$ ${\ displaystyle k}$ ${\ Displaystyle к \ ин \ {1, \ ldots, п_ {ij} \}}$

Из этих данных мы можем построить таблицу непредвиденных обстоятельств , где и , а общее количество реплик равно . ${\ Displaystyle п_ {я +} = \ сумма _ {j = 1} ^ {J} n_ {ij}}$ ${\ displaystyle n _ {+ j} = \ sum _ {i = 1} ^ {I} n_ {ij}}$ ${\ displaystyle n = \ sum _ {i, j} n_ {ij} = \ sum _ {i} n_ {i +} = \ sum _ {j} n _ {+ j}}$

Эксперимента является сбалансированным , если каждое лечение имеет одинаковое число повторов, . В таком случае конструкция также считается ортогональной , что позволяет полностью различать влияние обоих факторов. Следовательно, мы можем писать , и . ${\ displaystyle K}$ ${\ displaystyle \ forall i, j \; n_ {ij} = K}$ ${\ displaystyle \ forall i, j \; n_ {ij} = {\ frac {n_ {i +} \ cdot n _ {+ j}} {n}}}$

Модель

Наблюдая вариацию среди всех точек данных, например, с помощью гистограммы , « вероятность может использоваться для описания такой вариации». Давайте , следовательно , обозначать на случайную величину , которая наблюдаемое значение является -м мерой для лечения . Эта двухсторонний ANOVA модель все эти переменная как изменения независимо друг от друга , и обычно вокруг среднего, с постоянной дисперсией, ( гомоскедастичность ): ${\ displaystyle n}$ ${\ displaystyle Y_ {ijk}}$ ${\ displaystyle y_ {ijk}}$ ${\ displaystyle k}$ ${\ displaystyle (я, j)}$ ${\ displaystyle \ mu _ {ij}}$ ${\ displaystyle \ sigma ^ {2}}$

${\ Displaystyle Y_ {ijk} \, | \, \ mu _ {ij}, \ sigma ^ {2} \; {\ overset {\ mathrm {iid}} {\ sim}} \; {\ mathcal {N} } (\ mu _ {ij}, \ sigma ^ {2})}$ .

В частности, среднее значение переменной отклика моделируется как линейная комбинация независимых переменных:

${\ displaystyle \ mu _ {ij} = \ mu + \ alpha _ {i} + \ beta _ {j} + \ gamma _ {ij}}$ ,

где - общее среднее значение, - аддитивный главный эффект уровня от первого фактора ( i-я строка в таблице сопряженности), - аддитивный основной эффект уровня от второго фактора ( j -й столбец в таблице сопряженности) и - неаддитивный эффект взаимодействия лечения от обоих факторов (ячейка в строке i и столбце j в таблице непредвиденных обстоятельств). ${\ displaystyle \ mu}$ ${\ displaystyle \ alpha _ {я}}$ ${\ displaystyle i}$ ${\ displaystyle \ beta _ {j}}$ ${\ displaystyle j}$ ${\ displaystyle \ gamma _ {ij}}$ ${\ displaystyle (я, j)}$

Другой эквивалентный способ описания двустороннего дисперсионного анализа - это упоминание о том, что помимо вариации, объясняемой факторами, остается некоторый статистический шум . Такое количество необъяснимых вариаций обрабатывается путем введения одной случайной величины для каждой точки данных , называемой ошибкой . Эти случайные величины рассматриваются как отклонения от средних значений и считаются независимыми и нормально распределенными: ${\ displaystyle \ epsilon _ {ijk}}$ ${\ displaystyle n}$

${\ displaystyle Y_ {ijk} = \ mu _ {ij} + \ epsilon _ {ijk} {\ text {with}} \ epsilon _ {ijk} {\ overset {\ mathrm {iid}} {\ sim}} { \ mathcal {N}} (0, \ sigma ^ {2})}$ .

Предположения

Следуя Гельману и Хиллу, предположения дисперсионного анализа и, в более общем плане, общей линейной модели , в порядке убывания важности:

точки данных относятся к исследуемому научному вопросу;
на среднее значение переменной отклика влияют аддитивно (если не член взаимодействия) и линейно факторы;
ошибки независимы;
ошибки имеют одинаковую дисперсию;
ошибки нормально распределяются.

Оценка параметров

Чтобы обеспечить идентифицируемость параметров, мы можем добавить следующие ограничения «сумма к нулю»:

${\ displaystyle \ sum _ {i} \ alpha _ {i} = \ sum _ {j} \ beta _ {j} = \ sum _ {i} \ gamma _ {ij} = \ sum _ {j} \ gamma _ {ij} = 0}$

Проверка гипотезы

В классическом подходе проверка нулевых гипотез (о том, что факторы не действуют) достигается через их значимость, что требует вычисления суммы квадратов .

Проверка значимости члена взаимодействия может быть затруднена из-за потенциально большого количества степеней свободы .

Смотрите также

Дисперсионный анализ
F-тест ( включает пример одностороннего дисперсионного анализа )
Смешанная модель
Многомерный дисперсионный анализ (MANOVA)
Односторонний дисперсионный анализ
Повторные измерения ANOVA
Тест аддитивности Тьюки

Languages

In other projects