Изотоническая регрессия - Isotonic regression

Пример изотонической регрессии (сплошная красная линия) по сравнению с линейной регрессией на тех же данных, оба подходят для минимизации среднеквадратичной ошибки . Свойство произвольной формы изотонической регрессии означает, что линия может быть круче там, где круче данные; ограничение изотоничности означает, что линия не уменьшается.

В статистике , изотонические регрессии или монотонная регрессия является методом подгонки свободной формы линии к последовательности наблюдений таким образом, что встроенная линия не убывает (или не возрастает) всюду, и ложь как можно ближе к наблюдениям , как это возможно.

Приложения

Изотоническая регрессия находит применение в статистических выводах . Например, его можно использовать для подгонки изотонической кривой к средним значениям некоторого набора экспериментальных результатов, когда ожидается увеличение этих средних значений в соответствии с определенным порядком. Преимущество изотонической регрессии заключается в том, что она не ограничена какой-либо функциональной формой, такой как линейность, налагаемая линейной регрессией , пока функция является монотонно возрастающей.

Другое приложение - неметрическое многомерное масштабирование , где ищется низкоразмерное вложение для точек данных, чтобы порядок расстояний между точками во встраивании соответствовал порядку несходства между точками. Изотоническая регрессия используется итеративно для подбора идеальных расстояний для сохранения порядка относительного несходства.

Изотоническая регрессия также используется в вероятностной классификации для калибровки прогнозируемых вероятностей моделей машинного обучения с учителем.

Изотоническая регрессия для простого упорядоченного случая с одномерным была применена для оценки непрерывных зависимостей доза-реакция в таких областях, как анестезиология и токсикология. Узко говоря, изотоническая регрессия дает только точечные оценки при наблюдаемых значениях. Оценка полной кривой доза-реакция без каких-либо дополнительных предположений обычно выполняется посредством линейной интерполяции между точечными оценками.

Программное обеспечение для вычисления изотонной (монотонной) регрессии было разработано для R , Stata и Python .

Постановка проблемы и алгоритмы

Позвольте быть данным набором наблюдений, где и попадают в некоторый частично упорядоченный набор . Для общности каждому наблюдению может быть придан вес , хотя обычно для всех .

Изотоническая регрессия ищет взвешенный метод наименьших квадратов, подходящий для всех , с учетом ограничения, которое всегда . Это дает следующую квадратичную программу (QP) по переменным :

при условии

где задает частичный порядок наблюдаемых входов (и может рассматриваться как множество ребер некоторого ориентированного графа с вершинами ). Проблемы этой формы могут быть решены с помощью общих методов квадратичного программирования.

В обычных условиях, когда значения попадают в полностью упорядоченный набор, например , мы можем предположить WLOG, что наблюдения были отсортированы таким образом , и принять . В этом случае простым итерационным алгоритмом решения квадратичной программы является алгоритм пула смежных нарушителей . Напротив, Бест и Чакраварти изучили проблему как проблему идентификации активного множества и предложили основной алгоритм. Эти два алгоритма можно рассматривать как двойственные друг другу, и оба имеют вычислительную сложность для уже отсортированных данных.

Чтобы выполнить задачу изотонической регрессии, мы можем затем выбрать любую неубывающую функцию так , чтобы для всех i. Очевидно, что любая такая функция решает

при условии неубывания

и может использоваться для прогнозирования значений для новых значений . Обычным выбором будет линейная интерполяция между точками , как показано на рисунке, с получением непрерывной кусочно-линейной функции:

Центрированная изотоническая регрессия

Как видно на первом рисунке этой статьи, при наличии нарушений монотонности результирующая интерполированная кривая будет иметь плоские (постоянные) интервалы. В приложениях "доза-реакция" обычно известно, что он не только монотонный, но и плавный. Плоские интервалы несовместимы с предполагаемой формой пользователя и могут показаться смещенными. Простое усовершенствование для таких приложений, названное центрированной изотонической регрессией (CIR), было разработано Ороном и Флорной, и было показано, что оно существенно снижает ошибку оценки как для приложений доза-реакция, так и для приложений определения дозы. И CIR, и стандартная изотоническая регрессия для одномерного, просто упорядоченного случая реализованы в пакете R «cir». Этот пакет также предоставляет аналитические оценки доверительного интервала.

Рекомендации

дальнейшее чтение

  • Робертсон, Т .; Райт, FT; Дикстра Р.Л. (1988). Заказ ограниченного статистического вывода . Нью-Йорк: Вили. ISBN 978-0-471-91787-8.
  • Барлоу, RE; Варфоломей, диджей; Бремнер, Дж. М.; Brunk, HD (1972). Статистический вывод при ограничениях заказа; теория и применение изотонической регрессии . Нью-Йорк: Вили. ISBN 978-0-471-04970-8.
  • Шивели, Т.С., Сагер, Т.В., Уокер, С.Г. (2009). «Байесовский подход к непараметрическому оцениванию монотонной функции». Журнал Королевского статистического общества, Series B . 71 (1): 159–175. CiteSeerX  10.1.1.338.3846 . DOI : 10.1111 / j.1467-9868.2008.00677.x .CS1 maint: несколько имен: список авторов ( ссылка )
  • Wu, WB ; Woodroofe, M .; Менц, Г. (2001). «Изотоническая регрессия: еще один взгляд на проблему точки смены». Биометрика . 88 (3): 793–804. DOI : 10.1093 / Biomet / 88.3.793 .