Спектральный анализ методом наименьших квадратов - Least-squares spectral analysis

Наименьших квадратов спектральный анализ ( LSSA ) представляет собой способ оценки частотного спектра , на основе наименьших квадратов приступе синусоид до выборок данных, аналогично анализу Фурье . Анализ Фурье , наиболее используемый спектральный метод в науке, обычно усиливает длиннопериодический шум в записях с длинными интервалами; LSSA смягчает такие проблемы. Вразумительный вывод взаимосвязи между дискретным преобразованием Фурье и моделированием сигнала с использованием метода наименьших квадратов приведен в.

LSSA также известен как метод Ваничека в честь Петра Ваничека , а также как метод Ломба (или периодограмма Ломба ) и метод Ломба – Скаргла (или периодограмма Ломба – Скаргла ), основанный на вкладе Николаса Р. Ломба и, независимо, Джеффри Д. Скаргл. Близко связанные методы были разработаны Майклом Коренбергом, Скоттом Ченом и Дэвидом Донохо .

Историческое прошлое

Тесная связь между анализом Фурье , периодограммой и аппроксимацией синусоид методом наименьших квадратов известна давно. Однако большинство разработок ограничиваются полными наборами данных из равноотстоящих выборок. В 1963 году Фрик Дж. М. Барнинг из Mathematisch Centrum , Амстердам, обработал неравномерно разнесенные данные с помощью аналогичных методов, включая как анализ периодограмм, эквивалентный тому, что сейчас называют методом Ломба, так и аппроксимацию методом наименьших квадратов выбранных частот синусоид, определенных из таких периодограмм. , связанный с помощью процедуры, которая теперь известна как поиск совпадения с последующей подгонкой или поиском ортогонального совпадения.

Петр Ваничек , канадский геодезист из Университета Нью-Брансуика , в 1969 году также предложил подход согласованного преследования, который он назвал «последовательным спектральным анализом», в результате которого получилась «периодограмма наименьших квадратов» с одинаковыми и неравномерно разнесенными данными. Он обобщил этот метод для учета систематических компонентов, выходящих за рамки простого среднего, таких как «предсказанный линейный (квадратичный, экспоненциальный, ...) вековой тренд неизвестной величины», и применил его к множеству выборок в 1971 году.

Затем в 1976 году метод Ваничека был упрощен Николасом Р. Ломбом из Сиднейского университета , указавшим на его тесную связь с анализом периодограмм . Определение периодограммы неравномерно разнесенных данных было впоследствии модифицировано и проанализировано Джеффри Д. Скарглом из Исследовательского центра Эймса NASA , который показал, что с небольшими изменениями его можно сделать идентичным формуле наименьших квадратов Ломба для подбора индивидуальных синусоидальных частот.

Скаргл заявляет, что его статья «не вводит новую технику обнаружения, а вместо этого изучает надежность и эффективность обнаружения с помощью наиболее часто используемого метода, периодограммы, в случае, когда время наблюдения неравномерно », и далее указывает в ссылка на подгонку синусоид методом наименьших квадратов по сравнению с анализом периодограммы, что его статья «по-видимому, впервые устанавливает, что (с предложенными модификациями) эти два метода в точности эквивалентны».

Пресса резюмирует развитие следующим образом:

Совершенно другой метод спектрального анализа для неравномерно отобранных данных, который смягчает эти трудности и имеет некоторые другие очень желательные свойства, был разработан Ломбом, частично на основе более ранних работ Барнинга и Ваничека, и дополнительно разработан Скаргл.

В 1989 году Майкл Дж. Коренберг из Королевского университета в Кингстоне, Онтарио, разработал метод «быстрого ортогонального поиска» для более быстрого поиска почти оптимального разложения спектров или других задач, аналогичный методике, которая позже стала известна как поиск ортогонального сопоставления. . В 1994 году Скотт Чен и Дэвид Донохо из Стэнфордского университета разработали метод «базового поиска», использующий минимизацию нормы коэффициентов L1, чтобы преобразовать задачу в задачу линейного программирования , для которой доступны эффективные решения.

Метод Ваничека

В методе Ваничека дискретный набор данных аппроксимируется взвешенной суммой синусоид постепенно определяемых частот с использованием стандартной линейной регрессии или аппроксимации методом наименьших квадратов . Частоты выбираются с использованием метода, аналогичного методу Барнинга, но идущего дальше в оптимизации выбора каждой последующей новой частоты путем выбора частоты, которая минимизирует остаток после аппроксимации методом наименьших квадратов (эквивалент метода аппроксимации, теперь известного как поиск совпадения с предварительным согласованием). переоснащение). Количество синусоид должно быть меньше или равно количеству выборок данных (считая синусы и косинусы той же частоты, что и отдельные синусоиды).

Вектор данных Φ представлен как взвешенная сумма синусоидальных базисных функций, занесенных в таблицу в матрице A путем оценки каждой функции во время выборки с вектором весов x :

где весовой вектор x выбран так, чтобы минимизировать сумму квадратов ошибок аппроксимации Φ . Решение для x представляет собой замкнутую форму с использованием стандартной линейной регрессии :

Здесь матрица A может быть основана на любом наборе функций, которые являются взаимно независимыми (не обязательно ортогональными) при оценке во время выборки; для спектрального анализа обычно используются функции синусов и косинусов, равномерно распределенных по интересующему диапазону частот. Если слишком много частот выбрано в слишком узком частотном диапазоне, функции не будут достаточно независимыми, матрица будет плохо обусловлена, и результирующий спектр не будет иметь смысла.

Когда базисные функции в A ортогональны (то есть не коррелированы, что означает, что столбцы имеют нулевые попарные скалярные произведения ), матрица A T A является диагональной матрицей; когда все столбцы имеют одинаковую мощность (сумму квадратов элементов), тогда эта матрица представляет собой единичную матрицу, умноженную на константу, поэтому инверсия тривиальна. Последний случай имеет место, когда времена выборки равномерно распределены, а синусоиды выбраны так, чтобы быть синусами и косинусами, равномерно распределенными попарно в интервале частот от 0 до полупериода на выборку (с интервалом 1 / N цикла на выборку, опуская синус фазы на 0 и максимальной частоте, где они идентичны нулю). Этот частный случай известен как дискретное преобразование Фурье , слегка переписанное с точки зрения реальных данных и коэффициентов.

    (Случай ДПФ для N равноотстоящих отсчетов и частот в пределах скалярного множителя)

Ломб предложил использовать это упрощение в целом, за исключением парных корреляций между синусоидальными и косинусными основаниями одной и той же частоты, поскольку корреляции между парами синусоид часто малы, по крайней мере, когда они не слишком близко расположены. По сути, это традиционная формулировка периодограммы , но теперь она принята для использования с неравномерно расположенными образцами. Вектор x является хорошей оценкой лежащего в основе спектра, но поскольку корреляции игнорируются, A x больше не является хорошим приближением к сигналу, и метод больше не является методом наименьших квадратов - тем не менее, на него по-прежнему ссылаются как таковой.

Периодограмма Ломба – Скаргла

Вместо того, чтобы просто брать точечные произведения данных с синусоидальными и косинусоидальными сигналами напрямую, Скаргл изменил стандартную формулу периодограммы, чтобы сначала найти временную задержку , так что эта пара синусоид будет взаимно ортогональной во время выборки , а также скорректирована с учетом потенциально неравных мощностей. этих двух базисных функций, чтобы получить лучшую оценку мощности на частоте, что сделало его модифицированный метод периодограммы в точности эквивалентным методу наименьших квадратов Ломба. Время задержки определяется по формуле

Периодограмма по частоте тогда оценивается как:

отчеты Scargle имеют такое же статистическое распределение, что и периодограмма в случае с равномерной выборкой.

На любой отдельной частоте этот метод дает ту же мощность, что и метод наименьших квадратов для синусоид этой частоты в форме

Обобщенная периодограмма Ломба – Скаргла.

Стандартная периодограмма Ломба – Скаргла действительна для модели с нулевым средним. Обычно это приближается путем вычитания среднего значения данных перед вычислением периодограммы. Однако это неверное предположение, когда среднее значение модели (подогнанные синусоиды) не равно нулю. Обобщен Lomb-Scargle Периодограмма снимает это предположение, и явно решает для среднего. В этом случае установленная функция

Обобщенную периодограмму Ломба – Скаргла также называют периодограммой с плавающим средним .

Метод "быстрого ортогонального поиска" Коренберга

Майкл Коренберг из Королевского университета в Кингстоне, Онтарио , разработал метод выбора разреженного набора компонентов из чрезмерно полного набора, такого как синусоидальные компоненты для спектрального анализа, который называется быстрым ортогональным поиском (FOS). Математически FOS использует слегка модифицированное разложение Холецкого в процессе уменьшения среднеквадратичной ошибки (MSER), реализованное как инверсия разреженной матрицы . Как и другие методы LSSA, FOS позволяет избежать основного недостатка дискретного анализа Фурье и может обеспечить высокоточную идентификацию встроенных периодичностей и превосходит данные с неравномерными интервалами; Метод быстрого ортогонального поиска также применялся для решения других задач, таких как идентификация нелинейных систем.

Метод "преследования за основу" Чена и Донохо

Чен и Донохо разработали процедуру, называемую поиском базиса, для подбора разреженного набора синусоид или других функций из чрезмерно полного набора. Метод определяет оптимальное решение как решение, которое минимизирует норму L1 коэффициентов, так что задача может быть представлена ​​как задача линейного программирования , для которой доступны эффективные методы решения.

Метод хи-квадрат Палмера

Палмер разработал метод поиска наиболее подходящей функции для любого выбранного количества гармоник, что дает больше свободы при поиске несинусоидальных гармонических функций. Этот метод представляет собой быстрый метод (на основе БПФ ) для выполнения взвешенного анализа методом наименьших квадратов на произвольно расположенных данных с неоднородными стандартными ошибками. Доступен исходный код, реализующий эту технику. Поскольку данные часто не дискретизируются в равномерно распределенные дискретные моменты времени, этот метод «объединяет» данные в виде сетки, разреженно заполняя массив временных рядов во время выборки. Все промежуточные точки сетки получают нулевой статистический вес, что эквивалентно бесконечным полосам погрешностей между выборками.

Приложения

Самая полезная особенность метода LSSA - это возможность спектрального анализа неполных записей без необходимости манипулировать записью или придумывать иным образом несуществующие данные.

Величины в LSSA спектра изображают вклад в частоту или период к дисперсии от временных рядов . Как правило, спектральные величины, определенные вышеописанным образом, обеспечивают прямой режим уровня значимости выходных данных . В качестве альтернативы, величины в спектре Ваничека также могут быть выражены в дБ . Обратите внимание, что звездные величины в спектре Ваничека подчиняются β-распределению .

Обратное преобразование LSSA Ваничека возможно, в чем проще всего убедиться, записав прямое преобразование в виде матрицы; матрица, обратная (когда матрица не является сингулярной) или псевдообратная, тогда будет обратным преобразованием; обратное будет точно соответствовать исходным данным, если выбранные синусоиды взаимно независимы в точках выборки и их количество равно количеству точек данных. Подобная обратная процедура для метода периодограммы неизвестна.

Реализация

LSSA может быть реализован менее чем на странице кода MATLAB . По сути:

«чтобы вычислить спектр наименьших квадратов, мы должны вычислить m спектральных значений ... что включает в себя выполнение аппроксимации наименьших квадратов m раз, каждый раз, чтобы получить [спектральную мощность] для другой частоты»

Т.е. для каждой частоты в желаемом наборе частот функции синуса и косинуса оцениваются в моменты времени, соответствующие выборкам данных, и скалярные произведения вектора данных с векторами синусоиды берутся и соответствующим образом нормализуются; следуя методу, известному как периодограмма Ломба / Скаргла, временной сдвиг вычисляется для каждой частоты, чтобы ортогонализировать компоненты синуса и косинуса перед скалярным произведением, как описано Креймером; наконец, мощность вычисляется из этих двух составляющих амплитуды . Этот же процесс реализует дискретное преобразование Фурье, когда данные равномерно распределены во времени, а выбранные частоты соответствуют целому числу циклов в конечной записи данных.

Этот метод обрабатывает каждый синусоидальный компонент независимо или вне контекста, даже если они могут быть не ортогональными в точках данных; это оригинальный метод Ваничека. Напротив, как объясняет Креймер, также можно выполнить полную одновременную или контекстную аппроксимацию методом наименьших квадратов, решив матричное уравнение, разделив общую дисперсию данных между указанными частотами синусоид. Такое матричное решение наименьших квадратов изначально доступно в MATLAB как оператор обратной косой черты .

Креймер объясняет, что одновременный или контекстный метод, в отличие от независимой или внеконтекстной версии (а также версии периодограммы из-за Ломба), не может вместить больше компонентов (синусов и косинусов), чем имеется выборок данных, и далее, что:

«... серьезные последствия могут также возникнуть, если выбранные частоты приводят к тому, что некоторые из компонентов Фурье (триггерные функции) становятся почти линейно зависимыми друг от друга, тем самым создавая плохо обусловленную или почти сингулярную N. Чтобы избежать такой плохой обусловленности, становится необходимо либо выбрать другой набор частот для оценки (например, равноотстоящие частоты), либо просто пренебречь корреляциями в N (то есть недиагональными блоками) и оценить обратное преобразование методом наименьших квадратов отдельно для отдельных частот ... "

С другой стороны, метод периодограммы Ломба может использовать произвольно большое количество или плотность частотных компонентов, как в стандартной периодограмме ; то есть частотная область может быть передискретизирована произвольным фактором.

В анализе Фурье, таком как преобразование Фурье или дискретное преобразование Фурье , все синусоиды, подгоняемые к данным, являются взаимно ортогональными, поэтому нет различия между простой проекцией на основе скалярного произведения вне контекста на базисные функции и одновременный подбор методом наименьших квадратов в контексте; то есть не требуется инверсия матрицы для разделения дисперсии по методу наименьших квадратов между ортогональными синусоидами разных частот. Этот метод обычно предпочтительнее из-за его эффективной реализации быстрого преобразования Фурье , когда доступны полные записи данных с равноотстоящими выборками.

Смотрите также

использованная литература

внешние ссылки