Регрессия частичных наименьших квадратов - Partial least squares regression

Регрессия частичных наименьших квадратов ( регрессия PLS ) - это статистический метод, который имеет некоторое отношение к регрессии главных компонентов ; вместо того, чтобы находить гиперплоскости максимальной дисперсии между ответом и независимыми переменными, он находит модель линейной регрессии , проецируя предсказанные переменные и наблюдаемые переменные в новое пространство. Поскольку данные X и Y проецируются в новые пространства, семейство методов PLS известно как билинейные факторные модели. Дискриминантный анализ методом частичных наименьших квадратов (PLS-DA) - это вариант, используемый, когда Y является категориальным.

PLS используется для нахождения фундаментальных отношений между двумя матрицами ( X и Y ), т. Е. Скрытого переменного подхода к моделированию ковариационных структур в этих двух пространствах. Модель PLS попытается найти многомерное направление в пространстве X, которое объясняет направление максимальной многомерной дисперсии в пространстве Y. Регрессия PLS особенно подходит, когда матрица предикторов имеет больше переменных, чем наблюдений, и когда существует мультиколлинеарность между значениями X. Напротив, стандартная регрессия в этих случаях потерпит неудачу (если она не регуляризована ).

Метод наименьших квадратов был введен шведским статистиком Германом О.А. Волдом , который затем разработал его вместе со своим сыном Сванте Волдом. Альтернативный термин для PLS (и более правильный согласно Сванте Уолду) - это проекция на скрытые структуры , но термин частичные наименьшие квадраты все еще доминирует во многих областях. Хотя первоначальные приложения были в социальных науках, регрессия PLS сегодня наиболее широко используется в хемометрике и смежных областях. Он также используется в биоинформатике , сенсометрии , нейробиологии и антропологии .

Базовая модель

Общая базовая модель многомерного PLS такова:

где X - матрица предикторов, Y - матрица ответов; T и U - матрицы, которые представляют собой, соответственно, проекции X ( оценка X , матрица компонентов или факторов ) и проекции Y ( оценки Y ); P и Q представляют собой, соответственно, и ортогональные матрицы нагрузки ; а матрицы E и F являются членами ошибок, которые считаются независимыми и одинаково распределенными случайными нормальными величинами. В разбиения X и Y сделаны таким образом , чтобы максимизировать ковариации между Т и U .

Алгоритмы

Ряд вариантов PLS существуют для оценки коэффициента нагрузки и матрицы T, U, P и Q . Большинство из них строят оценки линейной регрессии между X и Y как . Некоторые алгоритмы PLS подходят только для случая , когда Y представляет собой вектор - столбец, в то время как другие решения в общем случае матрицы Y . Алгоритмы также различаются по тому, оценивают ли они фактор-матрицу T как ортогональную (то есть ортонормированную ) матрицу или нет. Окончательный прогноз будет одинаковым для всех этих разновидностей PLS, но компоненты будут отличаться.

PLS1

PLS1 - широко используемый алгоритм, подходящий для случая вектора Y. Он оценивает T как ортонормированную матрицу. В псевдокоде это выражается ниже (заглавные буквы - это матрицы, строчные буквы - это векторы, если они с надстрочными индексами, и скаляры, если они с индексами)

 1 function PLS1(X, y, l)
 2     
 3     , an initial estimate of w.
 4     for  to 
 5         
 6          (note this is a scalar)
 7         
 8         
 9          (note this is a scalar)
10         if 
11             , break the for loop
12         if 
13             
14             
15     end for
16     define W to be the matrix with columns .
       Do the same to form the P matrix and q vector.
17     
18     
19     return 

Эта форма алгоритма не требует центрирования входных X и Y , так как это выполняется алгоритмом неявно. Этот алгоритм объектов «дефляция» матрицы X (вычитание ), но дефляция вектора у не выполняется, так как не надо (можно доказать , что разваливающийся у дает те же результаты, не разваливающийся). Пользовательская переменная l - это ограничение на количество скрытых факторов в регрессии; если он равен рангу матрицы X , алгоритм даст оценки регрессии наименьших квадратов для B и

Расширения

В 2002 году был опубликован новый метод, названный ортогональными проекциями скрытых структур (OPLS). В OPLS непрерывные переменные данные разделяются на прогнозирующую и некоррелированную информацию. Это приводит к улучшенной диагностике, а также к более легко интерпретируемой визуализации. Однако эти изменения только улучшают интерпретируемость, но не предсказуемость моделей PLS. L-PLS расширяет регрессию PLS до 3 связанных блоков данных. Аналогичным образом, OPLS-DA (Дискриминантный анализ) может применяться при работе с дискретными переменными, например, в исследованиях классификации и биомаркеров.

В 2015 году метод частичных наименьших квадратов был связан с процедурой, называемой трехпроходным регрессионным фильтром (3PRF). Предположим, что количество наблюдений и переменных велико, 3PRF (и, следовательно, PLS) асимптотически нормален для «лучшего» прогноза, подразумеваемого линейной моделью скрытых факторов. В данных о фондовых рынках было показано, что PLS обеспечивает точные прогнозы доходности и роста денежных потоков вне выборки.

Версия PLS, основанная на разложении по сингулярным значениям (SVD), обеспечивает эффективную с точки зрения памяти реализацию, которая может использоваться для решения многомерных задач, таких как связывание миллионов генетических маркеров с тысячами функций визуализации в визуализации генетики на аппаратном обеспечении потребительского уровня.

Корреляция PLS (PLSC) - еще одна методология, связанная с регрессией PLS, которая использовалась в нейровизуализации, а в последнее время и в спортивной науке, для количественной оценки силы взаимосвязи между наборами данных. Как правило, PLSC делит данные на два блока (подгруппы), каждый из которых содержит одну или несколько переменных, а затем использует декомпозицию по сингулярным значениям (SVD) для определения силы любой взаимосвязи (т. Е. Объема совместно используемой информации), которая может существовать между две компонентные подгруппы. Это достигается с помощью SVD для определения инерции (т. Е. Суммы сингулярных значений) ковариационной матрицы рассматриваемых подгрупп.

Смотрите также

дальнейшее чтение

  • Крамер, Р. (1998). Хемометрические методы количественного анализа . Марсель-Деккер. ISBN 978-0-8247-0198-7.
  • Франк, Ильдико Э .; Фридман, Джером Х. (1993). «Статистический взгляд на некоторые инструменты регрессии хемометрики». Технометрика . 35 (2): 109–148. DOI : 10.1080 / 00401706.1993.10485033 .
  • Haenlein, Майкл; Каплан, Андреас М. (2004). «Руководство для начинающих по анализу методом частичных наименьших квадратов». Понимание статистики . 3 (4): 283–297. DOI : 10,1207 / s15328031us0304_4 .
  • Хенселер, Йорг; Фассотт, Георг (2005). «Тестирование смягчающих эффектов в моделях пути PLS. Иллюстрация доступных процедур». Цитировать журнал требует |journal=( помощь )
  • Лингьерде, Оле-Кристиан; Кристоферсен, Нильс (2000). «Структура усадки частичных наименьших квадратов». Скандинавский статистический журнал . 27 (3): 459–473. DOI : 10.1111 / 1467-9469.00201 .
  • Тененхаус, Мишель (1998). La Régression PLS: Теория и практика. Париж: Technip .
  • Росипал, Роман; Крамер, Николь (2006). «Обзор и недавние достижения в области частичных наименьших квадратов, методов подпространства, скрытой структуры и выбора признаков»: 34–51. Цитировать журнал требует |journal=( помощь )
  • Хелланд, Инге С. (1990). «PLS регрессионные и статистические модели». Скандинавский статистический журнал . 17 (2): 97–114. JSTOR  4616159 .
  • Уолд, Герман (1966). «Оценка главных компонентов и связанных моделей методом наименьших квадратов». В Кришнайа, PR (ред.). Многомерный анализ . Нью-Йорк: Academic Press. С. 391–420.
  • Уолд, Герман (1981). Подход фиксированной точки к взаимозависимым системам . Амстердам: Северная Голландия.
  • Уолд, Герман (1985). «Метод наименьших квадратов». В Коце, Самуэль; Джонсон, Норман Л. (ред.). Энциклопедия статистических наук . 6 . Нью-Йорк: Вили. С. 581–591.
  • Волд, Сванте; Рухе, Аксель; Уолд, Герман; Данн, WJ (1984). «Проблема коллинеарности в линейной регрессии. Метод частных наименьших квадратов (PLS) для обобщенных обратных». Журнал SIAM по научным и статистическим вычислениям . 5 (3): 735–743. DOI : 10,1137 / 0905052 .
  • Гартвейт, Пол Х. (1994). «Интерпретация частичных наименьших квадратов». Журнал Американской статистической ассоциации . 89 (425): 122–7. DOI : 10.1080 / 01621459.1994.10476452 . JSTOR  2291207 .
  • Ван, Х., изд. (2010). Справочник по неполным наименьшим квадратам . ISBN 978-3-540-32825-4.
  • Stone, M .; Брукс, Р.Дж. (1990). «Континуальная регрессия: перекрестно подтвержденное предсказание с последовательным построением, охватывающее обычные наименьшие квадраты, частичные наименьшие квадраты и регрессию главных компонентов». Журнал Королевского статистического общества, Series B . 52 (2): 237–269. JSTOR  2345437 .

использованная литература

внешние ссылки