Матрица Гессе - Hessian matrix

В математике , то матрица Гесса или Гессиан является квадратной матрицей второго порядка в частных производных скалярной-значной функции , или скалярного поля . Он описывает локальную кривизну функции многих переменных. Матрица Гессе была разработана в XIX веке немецким математиком Людвигом Отто Гессе и позже названа в его честь. Первоначально Гессе использовал термин «функциональные детерминанты».

Определения и свойства

Предположим , что это функция принимает в качестве входных данных вектор и вывода скаляр Если все вторые частные производные от существуют и непрерывны по области функции, то матрицы Гессе из представляет собой квадратную матрицу, как правило , определены и расположены следующим образом :

или, сформулировав уравнение для коэффициентов с использованием индексов i и j,

Матрица Гессе является симметричной матрицей , поскольку из гипотезы непрерывности вторых производных следует, что порядок дифференцирования не имеет значения ( теорема Шварца ).

Определитель Гессе матрицы называется Hessian детерминант .

Матрица Гессе функции является матрица Якоби от градиента функции ; то есть:

Приложения

Точки перегиба

Если это однородный многочлен три переменных, уравнение является неявным уравнением из кривых плоских проективных . В точки перегиба кривой в точности не-особые точки , где гессенская определитель равен нулю. Из теоремы Безу следует, что кубическая плоская кривая имеет не более чем точки перегиба, поскольку определитель Гессе является полиномом степени

Тест второй производной

Гессе матрица выпуклой функции является неотрицательно определенной . Уточнение этого свойства позволяет нам проверить, является ли критическая точка локальным максимумом, локальным минимумом или седловой точкой, как показано ниже:

Если гессиан положительно определен в точке, то достигает изолированного локального минимума в точке Если гессиан отрицательно определен в точке, то достигает изолированного локального максимума в точке Если гессиан имеет как положительные, так и отрицательные собственные значения , то является седловой точкой для В противном случае тест безрезультатно. Это означает, что в локальном минимуме гессиан положительно-полуопределенный, а в локальном максимуме гессиан отрицательно-полуопределенный.

Для положительно-полуопределенного и отрицательно-полуопределенного гессианов этот тест неубедителен (критическая точка, в которой гессиан является полуопределенным, но не определенным, может быть локальным экстремумом или седловой точкой). Однако с точки зрения теории Морса можно сказать больше .

Тест второй производной для функций одной и двух переменных проще, чем общий случай. В одной переменной гессиан содержит ровно одну вторую производную; если он положительный, то это локальный минимум, а если отрицательный, то локальный максимум; если он равен нулю, то проверка не дает результатов. В двух переменных можно использовать определитель , потому что определитель является произведением собственных значений. Если он положительный, то собственные значения либо положительны, либо отрицательны. Если он отрицательный, то два собственных значения имеют разные знаки. Если он равен нулю, то проверка второй производной неубедительна.

Эквивалентно, условия второго порядка, достаточные для локального минимума или максимума, могут быть выражены в терминах последовательности главных (крайних левых) миноров (определителей подматриц ) гессиана; эти условия являются частным случаем тех, которые приведены в следующем разделе для гессианов с границами для оптимизации с ограничениями - случая, когда количество ограничений равно нулю. В частности, достаточным условием для минимума является то, что все эти главные миноры должны быть положительными, в то время как достаточным условием для максимума является то, что миноры чередуются по знаку, а минор является отрицательным.

Критические точки

Если градиент (вектор частных производных) функции равен нулю в некоторой точке, то имеет критическую точку (или стационарную точку ) в точке . Определитель гессиана в точке называется в некоторых контекстах дискриминантом . Если этот определитель равен нуль , то называется вырожденная критической точкой из или неморсовской критической точки в противном случае она является невырожденной, и называется Морзе критической точкой из

Матрица Гесса играет важную роль в теории Морса и теории катастроф , так как его ядро и собственные позволяют классификацию критических точек.

Определитель матрицы Гессе при вычислении в критической точке функции равен гауссовой кривизне функции, рассматриваемой как многообразие. Собственные значения гессиана в этой точке являются основными кривизнами функции, а собственные векторы - основными направлениями кривизны. (См. Гауссова кривизна § Отношение к главной кривизне .)

Использование в оптимизации

Матрицы Гессе используются в крупномасштабных задачах оптимизации в рамках методов типа Ньютона, поскольку они являются коэффициентом квадратичного члена локального разложения Тейлора функции. То есть,

где это градиент вычислений и хранения полной матрица Гессе занимает память, которая является неосуществимым для многомерных функций , таких как функции потерь от нейронных сетей , условных случайных полей и других статистических моделей с большим числом параметров. Для таких ситуаций были разработаны алгоритмы усеченного Ньютона и квазиньютона . Последнее семейство алгоритмов использует приближения к гессиану; один из самых популярных квазиньютоновских алгоритмов - BFGS .

Такие аппроксимации могут использовать тот факт, что алгоритм оптимизации использует гессиан только как линейный оператор, и сначала заметить, что гессиан также появляется в локальном разложении градиента:

Допуская некоторый скаляр, это дает

то есть,
поэтому, если градиент уже вычислен, приблизительный гессиан может быть вычислен с помощью линейного (по размеру градиента) числа скалярных операций. (Хотя эта схема аппроксимации проста в программировании, она не является численно стабильной, так как ее нужно делать небольшими, чтобы предотвратить ошибку из-за члена, но при ее уменьшении теряется точность в первом члене.)

Другие приложения

Матрица Гессе обычно используется для выражения операторов обработки изображений при обработке изображений и компьютерном зрении (см. Лапласиан Гаусса (LoG) blob-детектор, детерминант Hessian (DoH) blob-детектор и масштабное пространство ). Матрица Гессе также может использоваться в анализе в нормальном режиме для расчета различных молекулярных частот в инфракрасной спектроскопии .

Обобщения

Гессен с окаймлением

Граничат Гессиан используется для второй производной теста в некоторых ограниченных задачах оптимизации с. Учитывая функцию, рассмотренную ранее, но добавляя функцию ограничения , при которой граничный гессиан является гессианом

функции Лагранжа

Если есть, скажем, ограничения, то ноль в верхнем левом углу - это блок нулей, и есть граничные строки вверху и граничные столбцы слева.

Приведенные выше правила, утверждающие, что экстремумы характеризуются (среди критических точек с неособым гессианом) положительно-определенным или отрицательно-определенным гессианом, здесь неприменимы, поскольку гессиан с границей не может быть ни отрицательно-определенным, ни положительно-определенным, как если бы он любой вектор, единственный ненулевой элемент которого является его первым.

Тест второй производной состоит здесь из знаковых ограничений определителей некоторого набора подматриц гессиана с краем. Интуитивно можно представить, что ограничения сводят проблему к проблеме со свободными переменными. (Например, максимизация подчиненного ограничению может быть сведена к максимизации без ограничения.)

В частности, знаковые условия накладываются на последовательность ведущих основных миноров (определителей выровненных по левому верху подматриц) ограниченного гессиана, для которого первые ведущие главные миноры не учитываются, а наименьший минор состоит из усеченных первых строк и столбцы, следующий из которых состоит из усеченных первых строк и столбцов и т. д., причем последний представляет собой весь гессен с окаймлением; если больше, то наименьший ведущий главный минор - это сам гессен. Таким образом, необходимо учитывать несовершеннолетних, каждый из которых оценивается в конкретном пункте, который рассматривается как максимальный или минимальный кандидат . Достаточным условием для локального максимума является то, что эти миноры чередуются по знаку с наименьшим, имеющим знак . Достаточным условием для локального минимума является то, что все эти миноры имеют знак (В неограниченном случае эти условия совпадают с условия, при которых гессиан без границ будет отрицательно определенным или положительно определенным соответственно).

Векторозначные функции

Если это векторное поле, то есть

тогда набор вторых частных производных - это не матрица, а тензор третьего порядка . Это можно представить как массив матриц Гессе, по одной для каждого компонента :
Этот тензор вырождается в обычную матрицу Гессе, когда

Обобщение на сложный случай

В контексте нескольких сложных переменных гессиан можно обобщить. Предположим и запишем Тогда обобщенный гессиан равен Если удовлетворяет n-мерным

условиям Коши – Римана , то комплексная матрица Гессе тождественно равна нулю.

Обобщения на римановы многообразия

Пусть -

риманово многообразие и его связность Леви-Чивита . Позвольте быть гладкой функцией. Определим тензор Гессе как
где это использует тот факт, что первая ковариантная производная функции такая же, как и ее обычная производная. Выбор локальных координат дает локальное выражение для гессиана как
где являются
символами Кристоффеля соединения. Другие эквивалентные формы для гессиана даются формулами

Смотрите также

Примечания

дальнейшее чтение

  • Льюис, Дэвид В. (1991). Матричная теория . Сингапур: World Scientific. ISBN 978-981-02-0689-5.
  • Магнус, Ян Р .; Neudecker, Хайнц (1999). «Второй дифференциал». Матричное дифференциальное исчисление: с приложениями в статистике и эконометрике (пересмотренное издание). Нью-Йорк: Вили. С. 99–115. ISBN 0-471-98633-X.

внешние ссылки