Тест Даннета - Dunnett's test

В статистике , тест Дуннетты является множественным сравнением процедуры , разработанная канадским статистик Чарльза Dunnett сравнить каждый из нескольких процедур с одним контролем. Множественные сравнения с контролем также называются сравнениями «многие к одному».

История

Тест Даннета был разработан в 1955 году; Обновленная таблица критических значений была опубликована в 1964 году.

Проблема множественных сравнений

Проблема множественных сравнений, множественности или множественного тестирования возникает, когда один одновременно рассматривает набор статистических выводов или делает вывод о подмножестве параметров, выбранных на основе наблюдаемых значений. Основной проблемой при любом обсуждении процедур множественного сравнения является вопрос о вероятности ошибок типа I. Большинство различий между альтернативными методами связано с разными подходами к вопросу о том, как контролировать эти ошибки. Проблема отчасти техническая; но на самом деле это гораздо более субъективный вопрос о том, как вы хотите определить частоту ошибок и насколько большим вы хотите позволить максимально возможную частоту ошибок. Тест Даннета хорошо известен и широко используется в процедуре множественного сравнения для одновременного сравнения, посредством интервальной оценки или проверки гипотез, всех активных обработок с контролем при выборке из распределения, в котором допущение нормальности является разумным. Тест Даннета предназначен для удержания уровня семейных ошибок на уровне или ниже при выполнении множественных сравнений экспериментальной группы с контрольной. ${\ displaystyle \ alpha}$

Использование теста Даннета

Первоначальная работа по проблеме множественных сравнений была сделана Тьюки и Шеффе . Их метод был общим, он рассматривал все виды попарных сравнений. Методы Тьюки и Шеффе позволяют проводить любое количество сравнений среди набора выборочных средних. С другой стороны, тест Даннета сравнивает только одну группу с другими, обращаясь к особому случаю проблемы множественных сравнений - попарному сравнению нескольких групп лечения с одной контрольной группой. В общем случае, когда мы сравниваем каждую из пар, мы проводим сравнения (где k - количество групп), но в случае лечения и контроля мы будем делать только сравнения. Если в случае экспериментальной и контрольной групп мы должны были использовать более общие методы Тьюки и Шеффе, они могли бы привести к излишне широким доверительным интервалам. Тест Даннета учитывает особую структуру сравнения лечения с контролем, что дает более узкие доверительные интервалы. Очень часто тест Даннета используется в медицинских экспериментах, например, для сравнения результатов анализа крови у трех групп животных, одна из которых служила контролем, а две другие принимали два разных препарата. Еще одно распространенное использование этого метода среди агрономов: агрономы могут захотеть изучить влияние определенных химикатов, добавленных в почву, на урожай, поэтому они оставят некоторые участки необработанными (контрольные участки) и сравнят их с участками, на которых были добавлены химикаты. почва (участки обработки). ${\ Displaystyle к (к-1) {\ big /} 2}$ ${\ Displaystyle (к-1)}$

Формальное описание теста Даннета

Тест Даннета выполняется путем вычисления t-статистики Стьюдента для каждой экспериментальной или лечебной группы, где статистика сравнивает экспериментальную группу с одной контрольной группой. Поскольку каждое сравнение имеет общий элемент управления, процедура включает зависимости между этими сравнениями. В частности, все t-статистики получают из одной и той же оценки дисперсии ошибок, которая получается путем объединения сумм квадратов ошибок по всем (экспериментальной и контрольной) группам. Формальная тестовая статистика для критерия Даннета является либо наибольшей по абсолютной величине этой t-статистики (если требуется двусторонний тест), либо наиболее отрицательной или наиболее положительной из t-статистики (если односторонний критерий является обязательный).

В тесте Дуннетты мы можем использовать общую таблицу критических значений, но более гибкие варианты в настоящее время легко доступны во многих пакетах статистики , таких как R . Критические значения для любой заданной процентной точки зависят от того, выполняется ли односторонний или двусторонний тест; количество сравниваемых групп; общее количество испытаний.

Предположения

Анализ рассматривает случай, когда результаты эксперимента являются числовыми, и эксперимент проводится для сравнения p обработок с контрольной группой. Результаты могут быть суммированы в виде набора расчетных средств наборов наблюдений, , в то время как имеют в виду лечения и имеет в виду набор управления наблюдений и является независимой оценкой общего стандартного отклонения всех наборов наблюдений. Все из множества наблюдений , как предполагается, независимо друг от друга и распределены нормально с общей дисперсией и средствами . Также есть предположение, что существует доступная оценка для . ${\ Displaystyle (п + 1)}$ ${\ displaystyle ({\ bar {X_ {0}}}, ..., {\ bar {X_ {p}}})}$ ${\ displaystyle ({\ bar {X_ {1}}}, ..., {\ bar {X_ {p}}})}$ ${\ displaystyle {\ bar {X_ {0}}}}$ ${\ displaystyle s}$ ${\ displaystyle p + 1}$ ${\ displaystyle {\ bar {X_ {i}}}}$ ${\ displaystyle p + 1}$ ${\ displaystyle \ sigma ^ {2}}$ ${\ Displaystyle \ mu _ {я}}$ ${\ displaystyle s ^ {2}}$ ${\ displaystyle \ sigma ^ {2}}$

Расчет

Вычисление теста Даннета - это процедура, основанная на вычислении утверждений о достоверности истинных или ожидаемых значений различий , то есть различий между средним значением экспериментальной группы и средним значением контрольной группы. Эта процедура гарантирует , что вероятность всех утверждений является одновременно корректным равно заданным значением, . При расчете односторонне верхних (или нижних) доверительного интервала для истинного значения разности между средним значением лечения и контрольной группой , представляет собой вероятность того, что это фактическое значение будет меньше , чем верхняя (или больше нижнего) предела этого интервала. При расчете двустороннего доверительного интервала , представляет собой вероятность того, что истинное значение будет находиться между верхним и нижним пределами. ${\ displaystyle p}$ ${\ displaystyle {\ bar {X_ {i}}} - {\ bar {X_ {0}}}}$ ${\ displaystyle p}$ ${\ displaystyle {\ bar {X_ {i}}} - {\ bar {X_ {0}}}}$ ${\ displaystyle P}$ ${\ displaystyle P}$ ${\ displaystyle P}$

Во-первых, мы обозначим доступные N наблюдений как когда и и оценим общую дисперсию , например: когда - среднее для группы, а - количество наблюдений в группе , и степени свободы. Как упоминалось ранее, мы хотели бы получить отдельные доверительные интервалы для каждого из различий , так чтобы вероятность того, что все доверительные интервалы будут содержать соответствующие, была равна . ${\ displaystyle X_ {ij}}$ ${\ displaystyle i = 1 ... p}$ ${\ displaystyle j = 1 ... N_ {i}}$ ${\ displaystyle s ^ {2} = {\ frac {\ sum _ {i = 0} ^ {p} \ sum _ {j = 1} ^ {N_ {i}} (X_ {ij} - {\ bar { X_ {i}}}) ^ {2}} {n}}}$ ${\ displaystyle {\ bar {X_ {i}}}}$ ${\ displaystyle i}$ ${\ displaystyle N_ {i}}$ ${\ displaystyle i}$ ${\ Displaystyle п = \ сумма _ {я = 0} ^ {р} N_ {я} - (р + 1)}$ ${\ displaystyle m_ {i} -m_ {0}, (i = 1 ... p)}$ ${\ displaystyle p}$ ${\ displaystyle m_ {i} -m_ {0}}$ ${\ displaystyle P}$

Мы рассмотрим общий случай, когда есть группы лечения и одна контрольная группа. Напишем: ${\ displaystyle p}$

${\ displaystyle z_ {i} = {\ cfrac {{\ bar {X_ {i}}} - {\ bar {X_ {0}}} - (m_ {i} -m_ {0})} {\ sqrt { {\ cfrac {1} {N_ {i}}} + {\ cfrac {1} {N_ {0}}}}}}}$

${\ displaystyle D_ {i} = {\ cfrac {{\ bar {X_ {i}}} - {\ bar {X_ {0}}} - (m_ {i} -m_ {0})} {s {\ sqrt {{\ cfrac {1} {N_ {i}}} + {\ cfrac {1} {N_ {0}}}}}}}}$

мы также напишем:, что соответствует t-статистическому распределению Стьюдента с n степенями свободы . Нижние доверительные границы с совместным доверительным коэффициентом для эффектов лечения будут выражаться следующим образом: ${\ displaystyle D_ {i} = {\ frac {z_ {i}} {s}}}$ ${\ displaystyle P}$ ${\ displaystyle p}$ ${\ displaystyle m_ {i} -m_ {0}, (i = 1 ... p)}$

${\ displaystyle {\ bar {X_ {i}}} - {\ bar {X_ {0}}} - d_ {i} s {\ sqrt {{\ frac {1} {N_ {i}}} + { \ frac {1} {N_ {0}}}}}, i = 1 ... p}$

а константы выбираются так, чтобы . Точно так же верхние пределы будут определяться: ${\ displaystyle p}$ ${\ displaystyle d_ {i} '}$ ${\ displaystyle Prob (t_ {1} <d_ {1} ', ..., t_ {p} <d_ {p}') = P}$

${\ displaystyle {\ bar {X_ {i}}} - {\ bar {X_ {0}}} + d_ {i} s {\ sqrt {{\ frac {1} {N_ {i}}} + { \ frac {1} {N_ {0}}}}}, i = 1 ... p}$

Для ограничения в обоих направлениях можно взять следующий интервал: ${\ displaystyle m_ {i} -m_ {0}}$

${\ displaystyle {\ bar {X_ {i}}} - {\ bar {X_ {0}}} \ pm d_ {i} 's {\ sqrt {{\ frac {1} {N_ {i}}} + {\ frac {1} {N_ {0}}}}}, i = 1 ... p}$

когда выбраны для удовлетворения . Решение этих конкретных значений для двухстороннего теста и для одностороннего теста приведено в таблицах. Обновленная таблица критических значений была опубликована в 1964 году. ${\ displaystyle d_ {i} ''}$ ${\ displaystyle Prob (| t_ {1} | <d_ {1} ', ..., | t_ {p} | <d_ {p}') = P}$ ${\ displaystyle d_ {i} ''}$ ${\ displaystyle d_ {i} '}$

Примеры

Прочность ткани на разрыв

Следующий пример был адаптирован из примера Вилларса [6]. Данные представляют собой измерения прочности на разрыв ткани, обработанной тремя различными химическими процессами по сравнению со стандартным способом производства.

прочность на разрыв (фунты)
	стандарт	процесс 1	процесс 2	процесс 3
	55	55	55	50
	47	64	49	44
	48	64	52	41 год
Средства	50	61	52	45
Дисперсия	19	27	9	21 год

Здесь p = 3 и N = 3. Средняя дисперсия равна , что является оценкой общей дисперсии четырех наборов с (p + 1) (N-1) = 8 степенями свободы. Это можно рассчитать следующим образом: ${\ displaystyle s ^ {2} = 19}$

${\ displaystyle {\ frac {55 ^ {2} + 47 ^ {2} + 48 ^ {2} + 55 ^ {2} + ... + 41 ^ {2} -3 (50 ^ {2} +61 ^ {2} + 52 ^ {2} + 45 ^ {2})} {8}} = {\ frac {152} {8}} = 19}$ .

Стандартное отклонение равно, а расчетная стандартная ошибка разницы между двумя средними составляет . ${\ displaystyle s = {\ sqrt {19}} = 4,36}$ ${\ displaystyle s {\ sqrt {\ frac {2} {N}}} = 4,36 {\ sqrt {\ frac {2} {N}}} = 3,56}$

Величина, которая должна быть добавлена и / или вычтена из наблюдаемых различий между средствами, чтобы дать их доверительные границы, была названа Тьюки «допуском» и выражается формулой , где t извлекается из многомерного t-распределения , или может быть полученные из таблицы 1 Даннета, если желательны односторонние ограничения, или из таблицы 2 Даннета, если требуются двусторонние пределы. Для p = 3 и df = 8, t = 2,42 для односторонних ограничений и t = 2,88 для двусторонних ограничений для p = 95%. Аналогичные значения t могут быть определены из таблиц, если требуется p = 99% достоверности. Для односторонних пределов допуск составляет A = (2.42) (3.56) = 9, и экспериментатор может заключить, что: ${\ displaystyle A = ts {\ sqrt {\ frac {2} {N}}}}$

Прочность на разрыв при использовании процесса 1 превышает стандарт как минимум на ${\ displaystyle 61-50-9 = 2 фунта}$
Прочность на разрыв при использовании процесса 2 как минимум превышает стандарт . ${\ displaystyle 52-50-9 = -7 фунтов}$
Прочность на разрыв при использовании процесса 3 как минимум превышает стандарт . ${\ displaystyle 45-50-9 = -14 фунтов}$

Совместное заявление, состоящее из трех вышеупомянутых выводов, имеет коэффициент уверенности 95%, то есть в долгосрочной перспективе 95% таких совместных заявлений действительно будут правильными. Аналогичным образом можно получить верхние пределы для трех разностей. Для двусторонних пределов допуск составляет A = (2,94) (3,56) = 11, и экспериментатор может заключить, что:

Прочность на разрыв при использовании процесса 1 превышает стандарт на величину между

${\ displaystyle 61-50-11 = 0 фунтов}$ и ${\ displaystyle 61-50 + 11 = 22 фунта}$

Прочность на разрыв при использовании процесса 2 превышает стандарт на величину между

${\ displaystyle 52-50-11 = -9 фунтов}$ и . ${\ displaystyle 52-50 + 11 = 13 фунтов}$

Прочность на разрыв при использовании процесса 3 превышает стандарт на величину между

${\ displaystyle 45-50-11 = -16 фунтов}$ и . Совместный коэффициент уверенности для этих трех утверждений превышает 95%. (Из-за приближения, сделанного при вычислении таблиц 2a и 2b, табличные значения t несколько больше, чем необходимо, так что фактические достигнутые значения p немного больше 95 и 99%. При вычислении таблиц 1a и 1b такое приближение не производилось) . ${\ displaystyle 45-50 + 11 = 6 фунтов}$

Ссылки

^ Аптон Г. и Кук I. (2006) Статистический словарь , 2e, Oxford University Press, Оксфорд, Соединенное Королевство.
^ Рамси, Дебора (2009-08-19). Статистика II для чайников . Вайли. п. 186 . Проверено 22 августа 2012 . тест Даннета, разработанный.
^ Эверетт BS & Shrondal A. (2010) Кембриджский словарь статистики , 4д, Cambridge University Press, Cambridge, Великобритания.
^ "Статистическое программное обеспечение | Информационные технологии Кентукки" . Uky.edu. Архивировано из оригинала на 2012-07-31 . Проверено 22 августа 2012 .
^ ^а ^б ^в ^г Даннет CW (1955). «Процедура множественного сравнения для сравнения нескольких обработок с контролем» . Журнал Американской статистической ассоциации . 50 : 1096–1121. DOI : 10.1080 / 01621459.1955.10501294 .
^ ^a ^b Dunnett CW (1964.) «Новые таблицы для множественных сравнений с контролем», Biometrics , 20 : 482–491.
^ ^a ^b ^c Дэвид К. Хауэлл, "Статистические методы психологии", 8-е изд.
^ Тест Даннета, HyperStat Online: вводный учебник по статистике и онлайн-учебник для помощи в курсах статистики
^ Механика различных тестов - Биостатистика BI 345 Архивировано 01.06.2010 в Wayback Machine , Колледж Святого Ансельма

[1] Аптон Г. и Кук I. (2006) Статистический словарь , 2e, Oxford University Press, Оксфорд, Соединенное Королевство.

[2] Рамси, Дебора (2009-08-19). Статистика II для чайников . Вайли. п. 186 . Проверено 22 августа 2012 . тест Даннета, разработанный.

[3] Эверетт BS & Shrondal A. (2010) Кембриджский словарь статистики , 4д, Cambridge University Press, Cambridge, Великобритания.

[4] "Статистическое программное обеспечение | Информационные технологии Кентукки" . Uky.edu. Архивировано из оригинала на 2012-07-31 . Проверено 22 августа 2012 .

[original_article-5] а ^б ^в ^г Даннет CW (1955). «Процедура множественного сравнения для сравнения нескольких обработок с контролем» . Журнал Американской статистической ассоциации . 50 : 1096–1121. DOI : 10.1080 / 01621459.1955.10501294 .

[Dunnett_C._W._1964-6] Dunnett CW (1964.) «Новые таблицы для множественных сравнений с контролем», Biometrics , 20 : 482–491.

[howell-7] Дэвид К. Хауэлл, "Статистические методы психологии", 8-е изд.

[8] Тест Даннета, HyperStat Online: вводный учебник по статистике и онлайн-учебник для помощи в курсах статистики

[9] Механика различных тестов - Биостатистика BI 345 Архивировано 01.06.2010 в Wayback Machine , Колледж Святого Ансельма

Languages

In other projects