Тест Даннета - Dunnett's test
В статистике , тест Дуннетты является множественным сравнением процедуры , разработанная канадским статистик Чарльза Dunnett сравнить каждый из нескольких процедур с одним контролем. Множественные сравнения с контролем также называются сравнениями «многие к одному».
История
Тест Даннета был разработан в 1955 году; Обновленная таблица критических значений была опубликована в 1964 году.
Проблема множественных сравнений
Проблема множественных сравнений, множественности или множественного тестирования возникает, когда один одновременно рассматривает набор статистических выводов или делает вывод о подмножестве параметров, выбранных на основе наблюдаемых значений. Основной проблемой при любом обсуждении процедур множественного сравнения является вопрос о вероятности ошибок типа I. Большинство различий между альтернативными методами связано с разными подходами к вопросу о том, как контролировать эти ошибки. Проблема отчасти техническая; но на самом деле это гораздо более субъективный вопрос о том, как вы хотите определить частоту ошибок и насколько большим вы хотите позволить максимально возможную частоту ошибок. Тест Даннета хорошо известен и широко используется в процедуре множественного сравнения для одновременного сравнения, посредством интервальной оценки или проверки гипотез, всех активных обработок с контролем при выборке из распределения, в котором допущение нормальности является разумным. Тест Даннета предназначен для удержания уровня семейных ошибок на уровне или ниже при выполнении множественных сравнений экспериментальной группы с контрольной.
Использование теста Даннета
Первоначальная работа по проблеме множественных сравнений была сделана Тьюки и Шеффе . Их метод был общим, он рассматривал все виды попарных сравнений. Методы Тьюки и Шеффе позволяют проводить любое количество сравнений среди набора выборочных средних. С другой стороны, тест Даннета сравнивает только одну группу с другими, обращаясь к особому случаю проблемы множественных сравнений - попарному сравнению нескольких групп лечения с одной контрольной группой. В общем случае, когда мы сравниваем каждую из пар, мы проводим сравнения (где k - количество групп), но в случае лечения и контроля мы будем делать только сравнения. Если в случае экспериментальной и контрольной групп мы должны были использовать более общие методы Тьюки и Шеффе, они могли бы привести к излишне широким доверительным интервалам. Тест Даннета учитывает особую структуру сравнения лечения с контролем, что дает более узкие доверительные интервалы.
Очень часто тест Даннета используется в медицинских экспериментах, например, для сравнения результатов анализа крови у трех групп животных, одна из которых служила контролем, а две другие принимали два разных препарата. Еще одно распространенное использование этого метода среди агрономов: агрономы могут захотеть изучить влияние определенных химикатов, добавленных в почву, на урожай, поэтому они оставят некоторые участки необработанными (контрольные участки) и сравнят их с участками, на которых были добавлены химикаты. почва (участки обработки).
Формальное описание теста Даннета
Тест Даннета выполняется путем вычисления t-статистики Стьюдента для каждой экспериментальной или лечебной группы, где статистика сравнивает экспериментальную группу с одной контрольной группой. Поскольку каждое сравнение имеет общий элемент управления, процедура включает зависимости между этими сравнениями. В частности, все t-статистики получают из одной и той же оценки дисперсии ошибок, которая получается путем объединения сумм квадратов ошибок по всем (экспериментальной и контрольной) группам. Формальная тестовая статистика для критерия Даннета является либо наибольшей по абсолютной величине этой t-статистики (если требуется двусторонний тест), либо наиболее отрицательной или наиболее положительной из t-статистики (если односторонний критерий является обязательный).
В тесте Дуннетты мы можем использовать общую таблицу критических значений, но более гибкие варианты в настоящее время легко доступны во многих пакетах статистики , таких как R . Критические значения для любой заданной процентной точки зависят от того, выполняется ли односторонний или двусторонний тест; количество сравниваемых групп; общее количество испытаний.
Предположения
Анализ рассматривает случай, когда результаты эксперимента являются числовыми, и эксперимент проводится для сравнения p обработок с контрольной группой. Результаты могут быть суммированы в виде набора расчетных средств наборов наблюдений, , в то время как имеют в виду лечения и имеет в виду набор управления наблюдений и является независимой оценкой общего стандартного отклонения всех наборов наблюдений. Все из множества наблюдений , как предполагается, независимо друг от друга и распределены нормально с общей дисперсией и средствами . Также есть предположение, что существует доступная оценка для .
Расчет
Вычисление теста Даннета - это процедура, основанная на вычислении утверждений о достоверности истинных или ожидаемых значений различий , то есть различий между средним значением экспериментальной группы и средним значением контрольной группы. Эта процедура гарантирует , что вероятность всех утверждений является одновременно корректным равно заданным значением, . При расчете односторонне верхних (или нижних) доверительного интервала для истинного значения разности между средним значением лечения и контрольной группой , представляет собой вероятность того, что это фактическое значение будет меньше , чем верхняя (или больше нижнего) предела этого интервала. При расчете двустороннего доверительного интервала , представляет собой вероятность того, что истинное значение будет находиться между верхним и нижним пределами.
Во-первых, мы обозначим доступные N наблюдений как когда и и оценим общую дисперсию , например: когда - среднее для группы, а - количество наблюдений в группе , и степени свободы. Как упоминалось ранее, мы хотели бы получить отдельные доверительные интервалы для каждого из различий , так чтобы вероятность того, что все доверительные интервалы будут содержать соответствующие, была равна .
Мы рассмотрим общий случай, когда есть группы лечения и одна контрольная группа. Напишем:
мы также напишем:, что соответствует t-статистическому распределению Стьюдента с n степенями свободы . Нижние доверительные границы с совместным доверительным коэффициентом для эффектов лечения будут выражаться следующим образом:
а константы выбираются так, чтобы . Точно так же верхние пределы будут определяться:
Для ограничения в обоих направлениях можно взять следующий интервал:
когда выбраны для удовлетворения . Решение этих конкретных значений для двухстороннего теста и для одностороннего теста приведено в таблицах. Обновленная таблица критических значений была опубликована в 1964 году.
Примеры
Прочность ткани на разрыв
Следующий пример был адаптирован из примера Вилларса [6]. Данные представляют собой измерения прочности на разрыв ткани, обработанной тремя различными химическими процессами по сравнению со стандартным способом производства.
стандарт | процесс 1 | процесс 2 | процесс 3 | |
---|---|---|---|---|
55 | 55 | 55 | 50 | |
47 | 64 | 49 | 44 | |
48 | 64 | 52 | 41 год | |
Средства | 50 | 61 | 52 | 45 |
Дисперсия | 19 | 27 | 9 | 21 год |
Здесь p = 3 и N = 3. Средняя дисперсия равна , что является оценкой общей дисперсии четырех наборов с (p + 1) (N-1) = 8 степенями свободы. Это можно рассчитать следующим образом:
.
Стандартное отклонение равно, а расчетная стандартная ошибка разницы между двумя средними составляет .
Величина, которая должна быть добавлена и / или вычтена из наблюдаемых различий между средствами, чтобы дать их доверительные границы, была названа Тьюки «допуском» и выражается формулой , где t извлекается из многомерного t-распределения , или может быть полученные из таблицы 1 Даннета, если желательны односторонние ограничения, или из таблицы 2 Даннета, если требуются двусторонние пределы. Для p = 3 и df = 8, t = 2,42 для односторонних ограничений и t = 2,88 для двусторонних ограничений для p = 95%. Аналогичные значения t могут быть определены из таблиц, если требуется p = 99% достоверности. Для односторонних пределов допуск составляет A = (2.42) (3.56) = 9, и экспериментатор может заключить, что:
- Прочность на разрыв при использовании процесса 1 превышает стандарт как минимум на
- Прочность на разрыв при использовании процесса 2 как минимум превышает стандарт .
- Прочность на разрыв при использовании процесса 3 как минимум превышает стандарт .
Совместное заявление, состоящее из трех вышеупомянутых выводов, имеет коэффициент уверенности 95%, то есть в долгосрочной перспективе 95% таких совместных заявлений действительно будут правильными. Аналогичным образом можно получить верхние пределы для трех разностей. Для двусторонних пределов допуск составляет A = (2,94) (3,56) = 11, и экспериментатор может заключить, что:
- Прочность на разрыв при использовании процесса 1 превышает стандарт на величину между
и
- Прочность на разрыв при использовании процесса 2 превышает стандарт на величину между
и .
- Прочность на разрыв при использовании процесса 3 превышает стандарт на величину между
и . Совместный коэффициент уверенности для этих трех утверждений превышает 95%. (Из-за приближения, сделанного при вычислении таблиц 2a и 2b, табличные значения t несколько больше, чем необходимо, так что фактические достигнутые значения p немного больше 95 и 99%. При вычислении таблиц 1a и 1b такое приближение не производилось) .
Ссылки
- ^ Аптон Г. и Кук I. (2006) Статистический словарь , 2e, Oxford University Press, Оксфорд, Соединенное Королевство.
-
^ Рамси, Дебора (2009-08-19). Статистика II для чайников . Вайли. п. 186 . Проверено 22 августа 2012 .
тест Даннета, разработанный.
- ^ Эверетт BS & Shrondal A. (2010) Кембриджский словарь статистики , 4д, Cambridge University Press, Cambridge, Великобритания.
- ^ "Статистическое программное обеспечение | Информационные технологии Кентукки" . Uky.edu. Архивировано из оригинала на 2012-07-31 . Проверено 22 августа 2012 .
- ^ а б в г Даннет CW (1955). «Процедура множественного сравнения для сравнения нескольких обработок с контролем» . Журнал Американской статистической ассоциации . 50 : 1096–1121. DOI : 10.1080 / 01621459.1955.10501294 .
- ^ a b Dunnett CW (1964.) «Новые таблицы для множественных сравнений с контролем», Biometrics , 20 : 482–491.
- ^ a b c Дэвид К. Хауэлл, "Статистические методы психологии", 8-е изд.
- ^ Тест Даннета, HyperStat Online: вводный учебник по статистике и онлайн-учебник для помощи в курсах статистики
- ^ Механика различных тестов - Биостатистика BI 345 Архивировано 01.06.2010 в Wayback Machine , Колледж Святого Ансельма