Проблема множественных сравнений - Multiple comparisons problem

Пример совпадения, полученного при копании данных (показывающий корреляцию между количеством букв в слове-победителе орфографической пчелы и количеством людей в Соединенных Штатах, убитых ядовитыми пауками). Учитывая достаточно большой пул переменных за тот же период времени, можно найти пару графиков, которые показывают корреляцию без причинно-следственной связи .

В статистических данных , то множественные сравнения , кратность или несколько проблемы тестировании возникает , если учесть набор статистических выводов одновременно или выводит подмножество параметров , выбранных на основе наблюдаемых значений. В некоторых областях это известно как эффект поиска в другом месте .

Чем больше выводов делается, тем больше вероятность ошибочных выводов. Для решения этой проблемы было разработано несколько статистических методов, обычно требующих более строгого порога значимости для отдельных сравнений, чтобы компенсировать количество сделанных выводов.

История

Проблема множественных сравнений привлекла повышенное внимание в 1950-х годах благодаря работе таких статистиков, как Тьюки и Шеффе . В последующие десятилетия было разработано множество процедур для решения этой проблемы. В 1996 году в Израиле прошла первая международная конференция по процедурам множественного сравнения ; обычно проводится примерно раз в два года в разных принимающих странах.

Определение

Множественные сравнения возникают, когда статистический анализ включает в себя несколько одновременных статистических тестов, каждый из которых может привести к «открытию». Заявленный уровень достоверности обычно применяется только к каждому тесту, рассматриваемому индивидуально, но часто желательно иметь уровень достоверности для всего семейства одновременных тестов. Неспособность компенсировать множественные сравнения может иметь важные последствия в реальном мире, о чем свидетельствуют следующие примеры:

  • Предположим, что лечение - это новый способ обучения студентов письму, а контроль - это стандартный способ обучения письму. Учащиеся двух групп можно сравнивать по грамматике, орфографии, организации, содержанию и так далее. По мере того, как сравнивается больше атрибутов, становится все более вероятным, что экспериментальная и контрольная группы будут различаться по крайней мере по одному атрибуту только из-за ошибки случайной выборки .
  • Предположим, мы рассматриваем эффективность лекарства с точки зрения уменьшения любого из ряда симптомов заболевания. По мере рассмотрения большего количества симптомов становится все более вероятным, что лекарство будет выглядеть лучше существующих лекарств с точки зрения по крайней мере одного симптома.

В обоих примерах по мере увеличения числа сравнений становится более вероятным, что сравниваемые группы будут различаться по крайней мере по одному атрибуту. Наша уверенность в том, что результат будет обобщен на независимые данные, как правило, будет слабее, если он будет наблюдаться в рамках анализа, включающего несколько сравнений, а не анализа, включающего только одно сравнение.

Например, если один тест выполняется на уровне 5% и соответствующая нулевая гипотеза верна, вероятность ошибочного отклонения нулевой гипотезы составляет всего 5%. Однако, если каждый из 100 тестов проводится на уровне 5% и все соответствующие нулевые гипотезы верны, ожидаемое количество неправильных отклонений (также известных как ложноположительные результаты или ошибки типа I ) равно 5. Если тесты статистически независимы друг от друга. , вероятность хотя бы одного неправильного отказа составляет примерно 99,4%.

Проблема множественных сравнений также касается доверительных интервалов . Единый доверительный интервал с уровнем вероятности охвата 95% будет содержать истинное значение параметра в 95% выборок. Однако, если одновременно рассматривать 100 доверительных интервалов, каждый с вероятностью охвата 95%, ожидаемое количество непокрывающих интервалов равно 5. Если интервалы статистически независимы друг от друга, вероятность того, что хотя бы один интервал не содержит совокупность параметр 99,4%.

Были разработаны методы для предотвращения роста числа ложноположительных результатов и показателей неполного охвата, которые возникают при использовании нескольких статистических тестов.

Классификация множественных проверок гипотез

В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, что у нас есть m нулевых гипотез, обозначенных как H 1H 2 , ...,  H m . Используя статистический тест , мы отклоняем нулевую гипотезу, если тест объявлен значимым. Мы не отвергаем нулевую гипотезу, если тест несущественен. Суммирование результатов каждого типа по всем H i   дает следующие случайные величины:

Нулевая гипотеза верна (H 0 ) Альтернативная гипотеза верна (H A ) Общий
Тест объявлен значимым V S р
Тест объявлен несущественным U Т
Общий м

В m проверках гипотез, из которых являются истинными нулевыми гипотезами, R - наблюдаемая случайная величина, а S , T , U и V - ненаблюдаемые случайные величины .

Контрольные процедуры

Если выполняется m независимых сравнений, коэффициент ошибок по семейству (FWER) определяется как

Следовательно, если тесты не являются абсолютно положительно зависимыми (т. Е. Идентичными), увеличивается с увеличением числа сравнений. Если мы не предполагаем, что сравнения независимы, мы все же можем сказать:

которое следует из неравенства Буля . Пример:

Есть разные способы обеспечить максимальное количество ошибок в семье . Наиболее консервативный метод, свободный от предположений о зависимости и распределении, - это поправка Бонферрони . Чуть менее консервативная поправка может быть получена путем решения уравнения для семейной ошибки независимых сравнений для . Эта доходность известна как поправка Шидака . Другой процедурой является метод Холма – Бонферрони , который равномерно обеспечивает большую мощность, чем простая поправка Бонферрони, путем проверки только самого низкого значения p ( ) по самому строгому критерию, а более высоких значений p ( ) по все менее строгим критериям. .

Для непрерывных задач можно использовать байесовскую логику для вычисления отношения объемов до и после операции. Непрерывные обобщения поправки Бонферрони и Шидака представлены в.

Коррекция множественного тестирования

Коррекция множественного тестирования относится к более строгим статистическим тестам, чтобы противодействовать проблеме множественного тестирования. Самая известная такая корректировка - это поправка Бонферрони , но были разработаны и другие методы. Такие методы обычно предназначены для управления частотой ошибок в семействе или частотой ложных обнаружений .

Масштабное множественное тестирование

Традиционные методы корректировки множественных сравнений сосредоточены на корректировке небольшого количества сравнений, часто при анализе дисперсии . Другой набор методов был разработан для «крупномасштабного множественного тестирования», в котором выполняются тысячи или даже большее количество тестов. Например, в геномике при использовании таких технологий, как микроматрицы , можно измерить уровни экспрессии десятков тысяч генов и можно измерить генотипы миллионов генетических маркеров. В частности, в области исследований генетических ассоциаций возникла серьезная проблема с отсутствием репликации - результат был статистически значимым в одном исследовании, но не мог быть воспроизведен в последующем исследовании. Такое отсутствие репликации может иметь множество причин, но широко распространено мнение, что неспособность полностью учесть последствия выполнения множественных сравнений является одной из причин. Утверждалось, что достижения в области измерений и информационных технологий значительно упростили создание больших наборов данных для исследовательского анализа , что часто приводит к проверке большого количества гипотез без предварительной основы для ожидания того, что многие из гипотез верны. В этой ситуации ожидается очень высокий процент ложных срабатываний , если не будут сделаны корректировки множественных сравнений.

Для крупномасштабных задач тестирования, цель которых состоит в том, чтобы предоставить окончательные результаты, частота ошибок по семействам остается наиболее приемлемым параметром для приписывания уровней значимости статистическим тестам. В качестве альтернативы, если исследование рассматривается как исследовательское или если значительные результаты могут быть легко повторно протестированы в независимом исследовании, часто предпочтительнее контролировать частоту ложных открытий (FDR). FDR, в общих чертах определяемый как ожидаемая доля ложноположительных результатов среди всех значимых тестов, позволяет исследователям идентифицировать набор «возможных положительных результатов», которые можно более тщательно оценить в ходе последующего исследования.

Практика попытки множества нескорректированных сравнений в надежде найти существенное - известная проблема, независимо от того, применяется ли она непреднамеренно или преднамеренно, иногда называется «р-хакингом».

Оценка того, верны ли какие-либо альтернативные гипотезы

Нормальный квантиль участок для моделируемого набора статистических тестов , которые были стандартизированы , чтобы быть Z-баллами при нулевой гипотезе. Отклонение верхнего хвоста распределения от ожидаемого тренда по диагонали связано с наличием значительно более крупных значений тестовой статистики, чем можно было бы ожидать, если бы все нулевые гипотезы были верны. Красная точка соответствует четвертой по величине наблюдаемой статистике теста, которая составляет 3,13, по сравнению с ожидаемым значением 2,06. Синяя точка соответствует пятой наименьшей тестовой статистике, которая составляет -1,75 по сравнению с ожидаемым значением -1,96. График предполагает, что маловероятно, что все нулевые гипотезы верны, и что большинство или все экземпляры истинной альтернативной гипотезы являются результатом отклонений в положительном направлении.

Основной вопрос, который возникает в начале анализа большого набора результатов тестирования, заключается в том, есть ли доказательства того, что какая-либо из альтернативных гипотез верна. Один простой мета-тест, который можно применить, когда предполагается, что тесты независимы друг от друга, заключается в использовании распределения Пуассона в качестве модели для количества значимых результатов на заданном уровне α, которые были бы найдены, когда все нулевые гипотезы правда. Если наблюдаемое количество положительных результатов значительно больше, чем следовало ожидать, это говорит о том, что среди значимых результатов, вероятно, будут некоторые истинные положительные результаты. Например, если выполнено 1000 независимых тестов, каждое на уровне α = 0,05, мы ожидаем, что 0,05 × 1000 = 50 значимых тестов произойдут, когда все нулевые гипотезы верны. Основываясь на распределении Пуассона со средним значением 50, вероятность наблюдения более 61 значимого критерия составляет менее 0,05, поэтому, если наблюдается более 61 значимого результата, весьма вероятно, что некоторые из них соответствуют ситуациям, в которых выполняется альтернативная гипотеза. Недостатком этого подхода является то, что он преувеличивает доказательства того, что некоторые из альтернативных гипотез верны, когда статистические данные теста положительно коррелированы, что обычно происходит на практике. С другой стороны, подход остается действительным даже при наличии корреляции между статистику теста, если можно показать, что распределение Пуассона дает хорошее приближение для количества значимых результатов. Этот сценарий возникает, например, при извлечении значительных частых наборов элементов из наборов транзакционных данных. Кроме того, тщательный двухэтапный анализ может ограничить FDR на заранее заданном уровне.

Другой распространенный подход, который можно использовать в ситуациях, когда статистику теста можно стандартизировать до Z- значений, - это построить нормальный график квантилей для статистики теста. Если наблюдаемые квантили заметно более разбросаны, чем нормальные квантили, это говорит о том, что некоторые из значимых результатов могут быть истинно положительными.

Смотрите также

Ключевые идеи
Общие методы альфа-корректировки для множественных сравнений
Связанные понятия

использованная литература

дальнейшее чтение

  • Ф. Бец, Т. Хотхорн, П. Вестфол (2010), Множественные сравнения с использованием R , CRC Press
  • С. Дудуа и М. Дж. Ван дер Лаан (2008), Процедуры множественного тестирования с применением в геномике , Springer
  • Фаркомени, А. (2008). «Обзор современной проверки множественных гипотез, с особым вниманием к количеству ложных открытий». Статистические методы в медицинских исследованиях . 17 (4): 347–388. DOI : 10.1177 / 0962280206079046 . PMID  17698936 . S2CID  12777404 .
  • Phipson, B .; Смит, GK (2010). «P-значения перестановок никогда не должны быть нулевыми: вычисление точных P-значений при случайном построении перестановок». Статистические приложения в генетике и молекулярной биологии . 9 : Статья 39. arXiv : 1603.05766 . DOI : 10.2202 / 1544-6115.1585 . PMID  21044043 . S2CID  10735784 .
  • PH Westfall и SS Young (1993), Множественное тестирование на основе повторной выборки: примеры и методы корректировки p-значения , Wiley
  • П. Вестфолл, Р. Тобиас, Р. Вольфингер (2011) Множественные сравнения и множественное тестирование с использованием SAS , 2-е изд., Институт SAS
  • Галерея примеров неправдоподобных корреляций, полученных с помощью драгирования данных