Блокировка (статистика) - Blocking (statistics)

В статистической теории планирования экспериментов , блокирование является обустройства экспериментальных единиц в группах (блоки), которые подобны друг другу.

Использовать

Блокирование снижает необъяснимую изменчивость. Его принцип заключается в том, что непреодолимая изменчивость (например, необходимость двух партий сырья для производства 1 контейнера с химическим веществом) смешивается или приравнивается к взаимодействию (n) (высший / высший порядок), чтобы исключить его влияние на конечный продукт. Взаимодействия высокого порядка обычно имеют наименьшее значение (подумайте о том факте, что температура реактора или партии сырья более важна, чем их комбинация - это особенно верно, когда больше (3, 4, ...) факторы присутствуют); таким образом, предпочтительно смешивать эту изменчивость с более высоким взаимодействием.

Примеры

  • Мужчина и женщина : эксперимент предназначен для тестирования нового препарата на пациентах. Есть два уровня лечения, лекарства и плацебо , вводимые мужского и женского пола пациентов в двойном слепом испытании. Пол пациента является блокирующим фактором, определяющим различия в лечении мужчин и женщин . Это уменьшает источники изменчивости и, следовательно, приводит к большей точности.
  • Высота : эксперимент предназначен для проверки воздействия нового пестицида на конкретный участок травы. Зона травы имеет существенное изменение высоты и, таким образом, состоит из двух отдельных областей - «высокий уровень» и «низкий уровень». Группу обработки (новый пестицид) и группу плацебо применяют как на высоких, так и на низких участках травы. В этом случае исследователь блокирует фактор повышения, который может объяснять изменчивость применения пестицида.
  • Вмешательство . Предположим, изобретен процесс, который продлевает срок службы подошвы обуви, и сформирован план проведения полевых испытаний. Для группы из n добровольцев одним из возможных вариантов было бы дать n / 2 из них обуви с новой подошвой и n / 2 из них обуви с обычной подошвой, случайным образом распределив два типа подошв. Этот тип эксперимента представляет собой полностью рандомизированный план . Обе группы затем просят надеть обувь в течение определенного периода времени, а затем измеряют степень износа подошвы. Это работоспособный экспериментальный план, но чисто с точки зрения статистической точности (игнорируя любые другие факторы), лучшим вариантом было бы дать каждому человеку одну обычную подошву и одну новую подошву, случайным образом назначив два типа слева и правый ботинок каждого добровольца. Такой дизайн называется «рандомизированный полный блочный дизайн ». Этот дизайн будет более чувствительным, чем первый, потому что каждый человек действует как свой собственный контроль, и, таким образом, контрольная группа более точно соответствует группе лечения .

Рандомизированный блочный дизайн

В статистической теории планирования экспериментов под блокировкой понимается объединение экспериментальных единиц в группы (блоки), похожие друг на друга. Как правило, фактор блокировки - это источник изменчивости, который не представляет особого интереса для экспериментатора. Примером блокирующего фактора может быть пол пациента; блокируя пол, этот источник изменчивости контролируется, что приводит к большей точности.

В теории вероятностей метод блоков состоит из разделения выборки на блоки (группы), разделенные более мелкими субблоками, так что блоки можно считать почти независимыми. Метод блоков помогает доказывать предельные теоремы в случае зависимых случайных величин.

Метод блоков был введен С. Бернштейном : метод был успешно применен в теории сумм зависимых случайных величин и в теории экстремальных значений .

Блокировка, используемая для мешающих факторов, которые можно контролировать

Когда мы можем контролировать мешающие факторы, можно использовать важный метод, известный как блокирование, для уменьшения или устранения вклада в экспериментальную ошибку, вносимого мешающими факторами. Основная концепция заключается в создании однородных блоков, в которых факторы помех остаются постоянными, а интересующий фактор может изменяться. Внутри блоков можно оценить влияние различных уровней интересующего фактора, не беспокоясь о вариациях из-за изменений факторов блока, которые учитываются в анализе.

Определение блокирующих факторов

Фактор неприятности используется как фактор блокировки, если каждый уровень основного фактора встречается одинаковое количество раз с каждым уровнем фактора помехи. Анализ эксперимента будет сосредоточен на влиянии различных уровней первичного фактора в каждом блоке эксперимента.

Заблокируйте несколько наиболее важных неприятных факторов.

Общее правило:

«Заблокируйте то, что можете; рандомизируйте то, что вы не можете ».

Блокирование используется для устранения влияния некоторых из наиболее важных мешающих переменных. Затем используется рандомизация для уменьшения негативного воздействия оставшихся мешающих переменных. Для важных мешающих переменных блокирование даст более высокую значимость интересующих переменных, чем рандомизация.

Таблица

Один из полезных способов взглянуть на рандомизированный блочный эксперимент - это рассматривать его как набор полностью рандомизированных экспериментов, каждый из которых запускается в пределах одного из блоков общего эксперимента.

Рандомизированные блочные конструкции (RBD)
Название дизайна Количество факторов k Количество прогонов n
2-факторный RBD 2 L 1 * L 2
3-факторный RBD 3 L 1 * L 2 * L 3
4-факторный RBD 4 Л 1 * Л 2 * Л 3 * Л 4
k -фактор RBD k L 1 * L 2 * * L к

с

L 1 = количество уровней (настроек) фактора 1
L 2 = количество уровней (настроек) фактора 2
L 3 = количество уровней (настроек) фактора 3
L 4 = количество уровней (настроек) фактора 4
L k = количество уровней (настроек) коэффициента k

Пример

Предположим, инженеры на предприятии по производству полупроводников хотят проверить, оказывают ли различные дозировки материала имплантата пластины существенное влияние на измерения удельного сопротивления после процесса диффузии, происходящего в печи. У них есть четыре разных дозировки, которые они хотят попробовать, и достаточно экспериментальных пластин из одной партии, чтобы запустить по три пластины при каждой дозировке.

Фактором неудобства, с которым они сталкиваются, является «ход печи», поскольку известно, что каждый прогон печи отличается от предыдущего и влияет на многие параметры процесса.

Идеальный способ провести этот эксперимент - запустить все пластины 4x3 = 12 в одной печи. Это полностью устранило бы мешающий фактор печи. Тем не менее, обычные производственные пластины имеют приоритет в печи, и только несколько экспериментальных пластин допускаются в любую печь одновременно.

Незаблокированный способ запустить этот эксперимент - запустить каждую из двенадцати экспериментальных пластин в случайном порядке, по одной на прогон печи. Это увеличило бы экспериментальную ошибку каждого измерения удельного сопротивления из-за вариабельности работы печи и затруднило бы изучение эффектов различных дозировок. Заблокированный способ проведения этого эксперимента, предполагающий, что вы можете убедить производство позволить вам поместить четыре экспериментальных пластины в цикл печи, заключался бы в размещении четырех вафель с разными дозировками в каждом из трех прогонов печи. Единственная случайная выборка будет заключаться в выборе того, какая из трех пластин с дозировкой 1 попадет в печь 1, и аналогично для пластин с дозировками 2, 3 и 4.

Описание эксперимента

Пусть X 1 будет «уровнем» дозировки, а X 2 - коэффициентом блокировки при работе печи. Тогда эксперимент можно описать следующим образом:

k = 2 фактора (1 первичный фактор X 1 и 1 блокирующий фактор X 2 )
L 1 = 4 уровня фактора X 1
L 2 = 3 уровня фактора X 2
n = 1 репликация на ячейку
N = L 1 * L 2 = 4 * 3 = 12 прогонов

Перед рандомизацией испытания дизайна выглядят следующим образом:

Х 1 Х 2
1 1
1 2
1 3
2 1
2 2
2 3
3 1
3 2
3 3
4 1
4 2
4 3

Матричное представление

Альтернативным способом обобщения испытаний дизайна было бы использование матрицы 4x3, 4 строки которой являются уровнями обработки X 1, а столбцы - 3 уровнями блокирующей переменной X 2 . Ячейки в матрице имеют индексы, которые соответствуют комбинациям X 1 , X 2, указанным выше.

Уход Блок 1 Блок 2 Блок 3
1 1 1 1
2 1 1 1
3 1 1 1
4 1 1 1

В дополнение, обратите внимание, что испытания для любого проекта рандомизированного блока с K-фактором - это просто индексы ячеек k- мерной матрицы.

Модель

Модель для рандомизированного блочного дизайна с одной мешающей переменной:

куда

Y ij - любое наблюдение, для которого X 1 = i и X 2 = j
X 1 - главный фактор
X 2 - коэффициент блокировки
μ - общий параметр местоположения (т.е. среднее значение)
T i - эффект от лечения i (фактора X 1 )
B j - эффект от нахождения в блоке j (фактора X 2 )

Оценки

Оценка для μ: = среднее значение всех данных
Оценка для T i  : с = среднее значение всех Y, для которых X 1 = i .
Оценка для B j  : с = среднее значение всех Y, для которых X 2 = j .

Обобщения

Теоретические основы

Теоретической основой блокировки является следующий математический результат. Учитывая случайные величины, X и Y

Разница между обработкой и контролем таким образом , может быть предоставлена минимальной дисперсией (т.е. максимальной точности) путем максимизации ковариации (или корреляцию) между X и Y .

Смотрите также

использованная литература

Список используемой литературы