Тест Даннета - Dunnett's test

В статистике , тест Дуннетты является множественным сравнением процедуры , разработанная канадским статистик Чарльза Dunnett сравнить каждый из нескольких процедур с одним контролем. Множественные сравнения с контролем также называются сравнениями «многие к одному».

История

Тест Даннета был разработан в 1955 году; Обновленная таблица критических значений была опубликована в 1964 году.

Проблема множественных сравнений

Проблема множественных сравнений, множественности или множественного тестирования возникает, когда один одновременно рассматривает набор статистических выводов или делает вывод о подмножестве параметров, выбранных на основе наблюдаемых значений. Основной проблемой при любом обсуждении процедур множественного сравнения является вопрос о вероятности ошибок типа I. Большинство различий между альтернативными методами связано с разными подходами к вопросу о том, как контролировать эти ошибки. Проблема отчасти техническая; но на самом деле это гораздо более субъективный вопрос о том, как вы хотите определить частоту ошибок и насколько большим вы хотите позволить максимально возможную частоту ошибок. Тест Даннета хорошо известен и широко используется в процедуре множественного сравнения для одновременного сравнения, посредством интервальной оценки или проверки гипотез, всех активных обработок с контролем при выборке из распределения, в котором допущение нормальности является разумным. Тест Даннета предназначен для удержания уровня семейных ошибок на уровне или ниже при выполнении множественных сравнений экспериментальной группы с контрольной.

Использование теста Даннета

Первоначальная работа по проблеме множественных сравнений была сделана Тьюки и Шеффе . Их метод был общим, он рассматривал все виды попарных сравнений. Методы Тьюки и Шеффе позволяют проводить любое количество сравнений среди набора выборочных средних. С другой стороны, тест Даннета сравнивает только одну группу с другими, обращаясь к особому случаю проблемы множественных сравнений - попарному сравнению нескольких групп лечения с одной контрольной группой. В общем случае, когда мы сравниваем каждую из пар, мы проводим сравнения (где k - количество групп), но в случае лечения и контроля мы будем делать только сравнения. Если в случае экспериментальной и контрольной групп мы должны были использовать более общие методы Тьюки и Шеффе, они могли бы привести к излишне широким доверительным интервалам. Тест Даннета учитывает особую структуру сравнения лечения с контролем, что дает более узкие доверительные интервалы. Очень часто тест Даннета используется в медицинских экспериментах, например, для сравнения результатов анализа крови у трех групп животных, одна из которых служила контролем, а две другие принимали два разных препарата. Еще одно распространенное использование этого метода среди агрономов: агрономы могут захотеть изучить влияние определенных химикатов, добавленных в почву, на урожай, поэтому они оставят некоторые участки необработанными (контрольные участки) и сравнят их с участками, на которых были добавлены химикаты. почва (участки обработки).

Формальное описание теста Даннета

Тест Даннета выполняется путем вычисления t-статистики Стьюдента для каждой экспериментальной или лечебной группы, где статистика сравнивает экспериментальную группу с одной контрольной группой. Поскольку каждое сравнение имеет общий элемент управления, процедура включает зависимости между этими сравнениями. В частности, все t-статистики получают из одной и той же оценки дисперсии ошибок, которая получается путем объединения сумм квадратов ошибок по всем (экспериментальной и контрольной) группам. Формальная тестовая статистика для критерия Даннета является либо наибольшей по абсолютной величине этой t-статистики (если требуется двусторонний тест), либо наиболее отрицательной или наиболее положительной из t-статистики (если односторонний критерий является обязательный).

В тесте Дуннетты мы можем использовать общую таблицу критических значений, но более гибкие варианты в настоящее время легко доступны во многих пакетах статистики , таких как R . Критические значения для любой заданной процентной точки зависят от того, выполняется ли односторонний или двусторонний тест; количество сравниваемых групп; общее количество испытаний.

Предположения

Анализ рассматривает случай, когда результаты эксперимента являются числовыми, и эксперимент проводится для сравнения p обработок с контрольной группой. Результаты могут быть суммированы в виде набора расчетных средств наборов наблюдений, , в то время как имеют в виду лечения и имеет в виду набор управления наблюдений и является независимой оценкой общего стандартного отклонения всех наборов наблюдений. Все из множества наблюдений , как предполагается, независимо друг от друга и распределены нормально с общей дисперсией и средствами . Также есть предположение, что существует доступная оценка для .

Расчет

Вычисление теста Даннета - это процедура, основанная на вычислении утверждений о достоверности истинных или ожидаемых значений различий , то есть различий между средним значением экспериментальной группы и средним значением контрольной группы. Эта процедура гарантирует , что вероятность всех утверждений является одновременно корректным равно заданным значением, . При расчете односторонне верхних (или нижних) доверительного интервала для истинного значения разности между средним значением лечения и контрольной группой , представляет собой вероятность того, что это фактическое значение будет меньше , чем верхняя (или больше нижнего) предела этого интервала. При расчете двустороннего доверительного интервала , представляет собой вероятность того, что истинное значение будет находиться между верхним и нижним пределами.

Во-первых, мы обозначим доступные N наблюдений как когда и и оценим общую дисперсию , например: когда - среднее для группы, а - количество наблюдений в группе , и степени свободы. Как упоминалось ранее, мы хотели бы получить отдельные доверительные интервалы для каждого из различий , так чтобы вероятность того, что все доверительные интервалы будут содержать соответствующие, была равна .

Мы рассмотрим общий случай, когда есть группы лечения и одна контрольная группа. Напишем:

мы также напишем:, что соответствует t-статистическому распределению Стьюдента с n степенями свободы . Нижние доверительные границы с совместным доверительным коэффициентом для эффектов лечения будут выражаться следующим образом:

а константы выбираются так, чтобы . Точно так же верхние пределы будут определяться:

Для ограничения в обоих направлениях можно взять следующий интервал:

когда выбраны для удовлетворения . Решение этих конкретных значений для двухстороннего теста и для одностороннего теста приведено в таблицах. Обновленная таблица критических значений была опубликована в 1964 году.

Примеры

Прочность ткани на разрыв

Следующий пример был адаптирован из примера Вилларса [6]. Данные представляют собой измерения прочности на разрыв ткани, обработанной тремя различными химическими процессами по сравнению со стандартным способом производства.

прочность на разрыв (фунты)
стандарт процесс 1 процесс 2 процесс 3
55 55 55 50
47 64 49 44
48 64 52 41 год
Средства 50 61 52 45
Дисперсия 19 27 9 21 год

Здесь p = 3 и N = 3. Средняя дисперсия равна , что является оценкой общей дисперсии четырех наборов с (p + 1) (N-1) = 8 степенями свободы. Это можно рассчитать следующим образом:

.

Стандартное отклонение равно, а расчетная стандартная ошибка разницы между двумя средними составляет .

Величина, которая должна быть добавлена ​​и / или вычтена из наблюдаемых различий между средствами, чтобы дать их доверительные границы, была названа Тьюки «допуском» и выражается формулой , где t извлекается из многомерного t-распределения , или может быть полученные из таблицы 1 Даннета, если желательны односторонние ограничения, или из таблицы 2 Даннета, если требуются двусторонние пределы. Для p = 3 и df = 8, t = 2,42 для односторонних ограничений и t = 2,88 для двусторонних ограничений для p = 95%. Аналогичные значения t могут быть определены из таблиц, если требуется p = 99% достоверности. Для односторонних пределов допуск составляет A = (2.42) (3.56) = 9, и экспериментатор может заключить, что:

  • Прочность на разрыв при использовании процесса 1 превышает стандарт как минимум на
  • Прочность на разрыв при использовании процесса 2 как минимум превышает стандарт .
  • Прочность на разрыв при использовании процесса 3 как минимум превышает стандарт .

Совместное заявление, состоящее из трех вышеупомянутых выводов, имеет коэффициент уверенности 95%, то есть в долгосрочной перспективе 95% таких совместных заявлений действительно будут правильными. Аналогичным образом можно получить верхние пределы для трех разностей. Для двусторонних пределов допуск составляет A = (2,94) (3,56) = 11, и экспериментатор может заключить, что:

  • Прочность на разрыв при использовании процесса 1 превышает стандарт на величину между

и

  • Прочность на разрыв при использовании процесса 2 превышает стандарт на величину между

и .

  • Прочность на разрыв при использовании процесса 3 превышает стандарт на величину между

и . Совместный коэффициент уверенности для этих трех утверждений превышает 95%. (Из-за приближения, сделанного при вычислении таблиц 2a и 2b, табличные значения t несколько больше, чем необходимо, так что фактические достигнутые значения p немного больше 95 и 99%. При вычислении таблиц 1a и 1b такое приближение не производилось) .

Ссылки

  1. ^ Аптон Г. и Кук I. (2006) Статистический словарь , 2e, Oxford University Press, Оксфорд, Соединенное Королевство.
  2. ^ Рамси, Дебора (2009-08-19). Статистика II для чайников . Вайли. п. 186 . Проверено 22 августа 2012 . тест Даннета, разработанный.
  3. ^ Эверетт BS & Shrondal A. (2010) Кембриджский словарь статистики , 4д, Cambridge University Press, Cambridge, Великобритания.
  4. ^ "Статистическое программное обеспечение | Информационные технологии Кентукки" . Uky.edu. Архивировано из оригинала на 2012-07-31 . Проверено 22 августа 2012 .
  5. ^ а б в г Даннет CW (1955). «Процедура множественного сравнения для сравнения нескольких обработок с контролем» . Журнал Американской статистической ассоциации . 50 : 1096–1121. DOI : 10.1080 / 01621459.1955.10501294 .
  6. ^ a b Dunnett CW (1964.) «Новые таблицы для множественных сравнений с контролем», Biometrics , 20 : 482–491.
  7. ^ a b c Дэвид К. Хауэлл, "Статистические методы психологии", 8-е изд.
  8. ^ Тест Даннета, HyperStat Online: вводный учебник по статистике и онлайн-учебник для помощи в курсах статистики
  9. ^ Механика различных тестов - Биостатистика BI 345 Архивировано 01.06.2010 в Wayback Machine , Колледж Святого Ансельма