Модель смеси - Mixture model

В статистике , А модель смеси является вероятностной моделью для представления наличия субпопуляций в пределах общей популяции, не требуя , чтобы наблюдаемый набор данных должен идентифицировать субпопуляцию , к которой принадлежит индивиду наблюдение. Формально модель смеси соответствует распределению смеси, которое представляет собой распределение вероятностей наблюдений в генеральной совокупности. Однако, в то время как проблемы, связанные со «смешанными распределениями», связаны с выводом свойств общей популяции на основе характеристик подгрупп, «смешанные модели» используются для статистических выводов о свойствах подгрупп населения с учетом только наблюдений за объединенное население без информации об идентичности подгруппы населения.

Смешанные модели не следует путать с моделями для композиционных данных , т. Е. Данных, сумма компонентов которых ограничена постоянным значением (1, 100% и т. Д.). Однако композиционные модели можно рассматривать как смешанные модели, в которых члены совокупности отбираются случайным образом. И наоборот, смешанные модели можно рассматривать как композиционные модели, в которых общее количество читающих по размеру нормализовано до 1.

Состав

Общая модель смеси

Типичная конечномерная модель смеси представляет собой иерархическую модель, состоящую из следующих компонентов:

Наблюдаемые N случайных величин, каждая из которых распределена в соответствии со смесью K компонентов, причем компоненты принадлежат одному и тому же параметрическому семейству распределений (например, все нормальные , все Zipfian и т. Д.), Но с разными параметрами
N случайных скрытых переменных, определяющих идентичность компонента смеси каждого наблюдения, каждая из которых распределена согласно K -мерному категориальному распределению
Набор из K весов смеси, которые представляют собой вероятности, сумма которых равна 1.
Набор из K параметров, каждый из которых определяет параметр соответствующего компонента смеси. Во многих случаях каждый «параметр» на самом деле представляет собой набор параметров. Например, если компоненты смеси являются гауссовскими распределениями , для каждого компонента будет среднее значение и дисперсия . Если компоненты смеси являются категориальными распределениями (например, когда каждое наблюдение является маркером из конечного алфавита размера V ), будет вектор вероятностей V, суммирующийся с 1.

Кроме того, в байесовской настройке веса и параметры смеси сами будут случайными величинами, а по переменным будут помещены предварительные распределения . В таком случае веса обычно рассматриваются как K -мерный случайный вектор, взятый из распределения Дирихле ( сопряженный априор категориального распределения), и параметры будут распределяться согласно их соответствующим сопряженным априорным значениям.

Математически базовая параметрическая модель смеси может быть описана следующим образом:

{\ displaystyle {\ begin {array} {lcl} K & = & {\ text {количество компонентов смеси}} \\ N & = & {\ text {количество наблюдений}} \\\ theta _ {i = 1 \ dots K} & = & {\ text {параметр распределения наблюдения, связанный с компонентом}} i \\\ phi _ {i = 1 \ dots K} & = & {\ text {вес смеси, т.е. априорная вероятность определенного component}} i \\ {\ boldsymbol {\ phi}} & = & K {\ text {-мерный вектор, состоящий из всех отдельных}} \ phi _ {1 \ dots K} {\ text {; в сумме должно быть 1}} \\ z_ {i = 1 \ dots N} & = & {\ text {компонент наблюдения}} i \\ x_ {i = 1 \ dots N} & = & {\ text {наблюдение} } i \\ F (x | \ theta) & = & {\ text {распределение вероятностей наблюдения, параметризованное на}} \ theta \\ z_ {i = 1 \ dots N} & \ sim & \ operatorname {Категориальное} ({\ boldsymbol {\ phi}}) \\ x_ {i = 1 \ dots N} | z_ {i = 1 \ dots N} & \ sim & F (\ theta _ {z_ {i}}) \ end {array }}}

В байесовской настройке все параметры связаны со случайными величинами следующим образом:

{\ displaystyle {\ begin {array} {lcl} K, N & = & {\ text {как указано выше}} \\\ theta _ {i = 1 \ dots K}, \ phi _ {i = 1 \ dots K} , {\ boldsymbol {\ phi}} & = & {\ text {как указано выше}} \\ z_ {i = 1 \ dots N}, x_ {i = 1 \ dots N}, F (x | \ theta) & = & {\ text {как указано выше}} \\\ alpha & = & {\ text {общий гиперпараметр для параметров компонентов}} \\\ beta & = & {\ text {общий гиперпараметр для весов смеси}} \\ H ( \ theta | \ alpha) & = & {\ text {априорное распределение вероятностей параметров компонентов, параметризованное на}} \ alpha \\\ theta _ {i = 1 \ dots K} & \ sim & H (\ theta | \ alpha) \\ {\ boldsymbol {\ phi}} & \ sim & \ operatorname {Symmetric-Dirichlet} _ {K} (\ beta) \\ z_ {i = 1 \ dots N} | {\ boldsymbol {\ phi}} & \ sim & \ operatorname {Категориальный} ({\ boldsymbol {\ phi}}) \\ x_ {i = 1 \ dots N} | z_ {i = 1 \ dots N}, \ theta _ {i = 1 \ dots K } & \ sim & F (\ theta _ {z_ {i}}) \ end {array}}}

Эта характеристика использует F и H для описания произвольных распределений по наблюдениям и параметрам соответственно. Как правило , Н будет конъюгат до из F . Два наиболее распространенных варианта F - гауссовский, также известный как « нормальный » (для вещественных наблюдений) и категориальный (для дискретных наблюдений). Другие распространенные возможности распределения компонентов смеси:

Биномиальное распределение для количества «положительных событий» (например, успехов, голосов «да» и т. Д.) При фиксированном общем количестве появлений.
Мультиномиальное распределение , аналогичное биномиальному распределению, но для подсчета многовариантных случаев (например, да / нет / возможно в опросе)
Отрицательное биномиальное распределение для наблюдений биномиального типа, но где интересующее количество - это количество неудач до того, как произойдет заданное количество успехов.
Распределение Пуассона для числа наступлений события в заданный период времени для события, которое характеризуется фиксированной частотой возникновения
Экспоненциальное распределение для времени до наступления следующего события для события, которое характеризуется фиксированной частотой возникновения.
Логнормальное распределение для положительных вещественных чисел, которые, как предполагается, растут экспоненциально, например доходов или цен.
Многомерное нормальное распределение (также известное как многомерное распределение Гаусса) для векторов коррелированных результатов, которые индивидуально распределены по Гауссу.
Многомерное t- распределение Стьюдента для векторов коррелированных результатов с тяжелыми хвостами
Вектор значений, распределенных по Бернулли , соответствующий, например, черно-белому изображению, где каждое значение представляет пиксель; см. пример распознавания рукописного ввода ниже

Конкретные примеры

Модель гауссовой смеси

Модель небайесовской гауссовской смеси с использованием пластинчатых обозначений . Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Закрашенные фигуры указывают известные значения. Индикация [K] означает , что вектор размера K .

Типичная модель небайесовской гауссовской смеси выглядит так:

{\ displaystyle {\ begin {array} {lcl} K, N & = & {\ text {как указано выше}} \\\ phi _ {i = 1 \ dots K}, {\ boldsymbol {\ phi}} & = & {\ text {как указано выше}} \\ z_ {i = 1 \ dots N}, x_ {i = 1 \ dots N} & = & {\ text {как указано выше}} \\\ theta _ {i = 1 \ точки K} & = & \ {\ mu _ {i = 1 \ dots K}, \ sigma _ {i = 1 \ dots K} ^ {2} \} \\\ mu _ {i = 1 \ dots K} & = & {\ text {среднее значение компонента}} i \\\ sigma _ {i = 1 \ dots K} ^ {2} & = & {\ text {дисперсия компонента}} i \\ z_ {i = 1 \ dots N} & \ sim & \ operatorname {Категориальный} ({\ boldsymbol {\ phi}}) \\ x_ {i = 1 \ dots N} & \ sim & {\ mathcal {N}} (\ mu _ { z_ {i}}, \ sigma _ {z_ {i}} ^ {2}) \ end {массив}}}

Модель байесовской гауссовской смеси с использованием пластинчатых обозначений . Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Закрашенные фигуры указывают известные значения. Индикация [K] означает , что вектор размера K .

Байесовская версия модели гауссовой смеси выглядит следующим образом:

{\ displaystyle {\ begin {array} {lcl} K, N & = & {\ text {как указано выше}} \\\ phi _ {i = 1 \ dots K}, {\ boldsymbol {\ phi}} & = & {\ text {как указано выше}} \\ z_ {i = 1 \ dots N}, x_ {i = 1 \ dots N} & = & {\ text {как указано выше}} \\\ theta _ {i = 1 \ точки K} & = & \ {\ mu _ {i = 1 \ dots K}, \ sigma _ {i = 1 \ dots K} ^ {2} \} \\\ mu _ {i = 1 \ dots K} & = & {\ text {среднее значение компонента}} i \\\ sigma _ {i = 1 \ dots K} ^ {2} & = & {\ text {дисперсия компонента}} i \\\ mu _ {0 }, \ lambda, \ nu, \ sigma _ {0} ^ {2} & = & {\ text {общие гиперпараметры}} \\\ mu _ {i = 1 \ dots K} & \ sim & {\ mathcal { N}} (\ mu _ {0}, \ lambda \ sigma _ {i} ^ {2}) \\\ sigma _ {i = 1 \ dots K} ^ {2} & \ sim & \ operatorname {Inverse- Гамма} (\ nu, \ sigma _ {0} ^ {2}) \\ {\ boldsymbol {\ phi}} & \ sim & \ operatorname {Symmetric-Dirichlet} _ {K} (\ beta) \\ z_ { i = 1 \ dots N} & \ sim & \ operatorname {Категориальный} ({\ boldsymbol {\ phi}}) \\ x_ {i = 1 \ dots N} & \ sim & {\ mathcal {N}} (\ mu _ {z_ {i}}, \ sigma _ {z_ {i}} ^ {2}) \ end {array}}}

Воспроизвести медиа

Анимация процесса кластеризации для одномерных данных с использованием модели байесовской гауссовской смеси, в которой нормальные распределения взяты из процесса Дирихле . Гистограммы кластеров показаны разными цветами. В процессе оценки параметров создаются новые кластеры, которые растут на основе данных. В легенде показаны цвета кластера и количество точек данных, назначенных каждому кластеру.

Многомерная модель гауссовой смеси

Модель байесовской гауссовской смеси обычно расширяется, чтобы соответствовать вектору неизвестных параметров (выделенных жирным шрифтом) или многомерным нормальным распределениям. В многомерном распределении (то есть при моделировании вектора с N случайными величинами) можно смоделировать вектор параметров (например, несколько наблюдений сигнала или участков в изображении), используя предварительное распределение гауссовой модели смеси на векторе оценок, заданных формулой ${\ displaystyle {\ boldsymbol {x}}}$

{\ displaystyle p ({\ boldsymbol {\ theta}}) = \ sum _ {i = 1} ^ {K} \ phi _ {i} {\ mathcal {N}} ({\ boldsymbol {\ mu _ {i }, \ Sigma _ {i}}})}

где i- ^я компонента вектора характеризуется нормальными распределениями с весами , средними и ковариационными матрицами . Чтобы включить это априорное значение в байесовскую оценку, априорное значение умножается на известное распределение данных, обусловленное параметрами, которые необходимо оценить. С такой постановкой задней распределение является также смесь модели гауссов вида ${\ displaystyle \ phi _ {я}}$ ${\ displaystyle {\ boldsymbol {\ mu _ {i}}}}$ ${\ displaystyle {\ boldsymbol {\ Sigma _ {i}}}}$ ${\ Displaystyle р ({\ boldsymbol {х | \ theta}})}$ ${\ displaystyle {\ boldsymbol {x}}}$ ${\ displaystyle {\ boldsymbol {\ theta}}}$ ${\ displaystyle p ({\ boldsymbol {\ theta | x}})}$

{\ displaystyle p ({\ boldsymbol {\ theta | x}}) = \ sum _ {i = 1} ^ {K} {\ tilde {\ phi _ {i}}} {\ mathcal {N}} ({ \ boldsymbol {{\ tilde {\ mu _ {i}}}, {\ tilde {\ Sigma _ {i}}}}}})}

с новыми параметрами и которые обновляются с помощью алгоритма EM . Хотя обновление параметров на основе ЭМ хорошо известно, предоставление начальных оценок для этих параметров в настоящее время является областью активных исследований. Обратите внимание, что эта формулировка дает решение в замкнутой форме для полного апостериорного распределения. Оценки случайной величины могут быть получены с помощью одного из нескольких оценщиков, таких как среднее или максимальное значение апостериорного распределения. ${\ displaystyle {\ tilde {\ phi _ {i}}}, {\ boldsymbol {\ tilde {\ mu _ {i}}}}}$ ${\ displaystyle {\ boldsymbol {\ tilde {\ Sigma _ {я}}}}}$ ${\ displaystyle {\ boldsymbol {\ theta}}}$

Такие распределения полезны, например, для допущения патч-форм изображений и кластеров. В случае представления изображения каждый гауссиан может быть наклонен, расширен и деформирован в соответствии с ковариационными матрицами . Каждому фрагменту изображения (обычно размером 8x8 пикселей) соответствует одно распределение Гаусса из набора. Примечательно, что любое распределение точек вокруг кластера (см. K -средние ) может быть точно задано достаточным количеством гауссовых компонентов, но едва ли требуется более K = 20 компонентов для точного моделирования данного распределения изображения или кластера данных. ${\ displaystyle {\ boldsymbol {\ Sigma _ {i}}}}$

Категориальная модель смеси

Небайесовская модель категориальной смеси с использованием табличной нотации . Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Закрашенные фигуры указывают известные значения. Индикация [K] означает вектор размера K ; аналогично для [V].

Типичная модель небайесовской смеси с категориальными наблюдениями выглядит так:

${\ displaystyle K, N:}$ как указано выше
${\ displaystyle \ phi _ {я = 1 \ точки K}, {\ boldsymbol {\ phi}}:}$ как указано выше
${\ Displaystyle Z_ {я = 1 \ точки N}, x_ {я = 1 \ точки N}:}$ как указано выше
${\ displaystyle V:}$ измерение категориальных наблюдений, например, размер словарного запаса
${\ Displaystyle \ тета _ {я = 1 \ точки K, j = 1 \ точки V}:}$ вероятность для компонента объекта наблюдения ${\ displaystyle i}$ ${\ displaystyle j}$
${\ Displaystyle {\ boldsymbol {\ theta}} _ {я = 1 \ точки K}:}$ вектор размерности, состоящий из, должен суммироваться до 1 ${\ displaystyle V,}$ ${\ Displaystyle \ theta _ {я, 1 \ точки V};}$

Случайные величины:

{\ displaystyle {\ begin {array} {lcl} z_ {i = 1 \ dots N} & \ sim & \ operatorname {Category} ({\ boldsymbol {\ phi}}) \\ x_ {i = 1 \ dots N } & \ sim & {\ text {Категориальный}} ({\ boldsymbol {\ theta}} _ {z_ {i}}) \ end {array}}}

Байесовская модель категориальной смеси с использованием табличной нотации . Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Закрашенные фигуры указывают известные значения. Индикация [K] означает вектор размера K ; аналогично для [V].

Типичная байесовская модель смеси с категориальными наблюдениями выглядит так:

${\ displaystyle K, N:}$ как указано выше
${\ displaystyle \ phi _ {я = 1 \ точки K}, {\ boldsymbol {\ phi}}:}$ как указано выше
${\ Displaystyle Z_ {я = 1 \ точки N}, x_ {я = 1 \ точки N}:}$ как указано выше
${\ displaystyle V:}$ измерение категориальных наблюдений, например, размер словарного запаса
${\ Displaystyle \ тета _ {я = 1 \ точки K, j = 1 \ точки V}:}$ вероятность для компонента объекта наблюдения ${\ displaystyle i}$ ${\ displaystyle j}$
${\ Displaystyle {\ boldsymbol {\ theta}} _ {я = 1 \ точки K}:}$ вектор размерности, состоящий из, должен суммироваться до 1 ${\ displaystyle V,}$ ${\ Displaystyle \ theta _ {я, 1 \ точки V};}$
${\ displaystyle \ alpha:}$ общий гиперпараметр концентрации для каждого компонента ${\ displaystyle {\ boldsymbol {\ theta}}}$
${\ displaystyle \ beta:}$ гиперпараметр концентрации ${\ displaystyle {\ boldsymbol {\ phi}}}$

Случайные величины:

{\ displaystyle {\ begin {array} {lcl} {\ boldsymbol {\ phi}} & \ sim & \ operatorname {Symmetric-Dirichlet} _ {K} (\ beta) \\ {\ boldsymbol {\ theta}} _ {i = 1 \ dots K} & \ sim & {\ text {Symmetric-Dirichlet}} _ {V} (\ alpha) \\ z_ {i = 1 \ dots N} & \ sim & \ operatorname {Категориальный} ( {\ boldsymbol {\ phi}}) \\ x_ {i = 1 \ dots N} & \ sim & {\ text {Категориальный}} ({\ boldsymbol {\ theta}} _ {z_ {i}}) \ end {множество}}}

Примеры

Финансовая модель

Нормальное распределение строятся с использованием различных средств и отклонений

Финансовая отдача часто бывает разной в обычных ситуациях и во время кризиса. Смешанная модель для возвращаемых данных кажется разумной. Иногда используется модель скачкообразной диффузии или смесь двух нормальных распределений. См. Финансовую экономику # Проблемы и критика для получения дополнительной информации.

Цены на дома

Предположим, что мы наблюдаем цены на N разных домов. Разные типы домов в разных кварталах будут иметь совершенно разные цены, но цена на дом определенного типа в конкретном районе (например, дом с тремя спальнями в умеренно престижном районе) будет иметь тенденцию довольно близко группироваться вокруг среднего значения. Одна из возможных моделей таких цен состоит в предположении, что цены точно описываются смешанной моделью с K различными компонентами, каждый из которых распределен как нормальное распределение с неизвестным средним значением и дисперсией, причем каждый компонент определяет конкретную комбинацию типа дома / района. Подгонка этой модели к наблюдаемым ценам, например, с использованием алгоритма максимизации ожиданий , будет иметь тенденцию сгруппировать цены в соответствии с типом дома / районом и выявить разброс цен в каждом типе / районе. (Обратите внимание, что для таких значений, как цены или доходы, которые гарантированно положительны и имеют тенденцию к экспоненциальному росту , логнормальное распределение может оказаться лучшей моделью, чем нормальное распределение.)

Темы в документе

Предположим, что документ состоит из N различных слов из общего словаря размера V , где каждое слово соответствует одной из K возможных тем. Распределение таких слов можно смоделировать как смесь K различных V- мерных категориальных распределений . Подобную модель обычно называют тематической моделью . Обратите внимание, что максимизация ожидания, применяемая к такой модели, обычно не дает реалистичных результатов из-за (среди прочего) чрезмерного количества параметров . Для получения хороших результатов обычно необходимы некоторые дополнительные предположения. Обычно к модели добавляются два вида дополнительных компонентов:

Априорное распределение помещает поверх параметров , описывающих распределения темы, используя распределение Дирихля с параметром концентрации , который установлен значительно ниже 1, с тем чтобы стимулировать разреженные распределения (там , где лишь небольшое количество слов значительно ненулевые вероятности).
Некоторое дополнительное ограничение накладывается на тематические идентичности слов, чтобы воспользоваться преимуществом естественной кластеризации.

Например, цепь Маркова может быть помещена на идентичности темы (т. Е. На скрытые переменные, определяющие компонент смеси каждого наблюдения), что соответствует тому факту, что соседние слова принадлежат схожим темам. (Это приводит к скрытой марковской модели , в частности, к той, в которой предварительное распределение размещается по переходам между состояниями, что благоприятствует переходам, которые остаются в том же состоянии.)
Другая возможность - это скрытая модель распределения Дирихле , которая разделяет слова на D разных документов и предполагает, что в каждом документе с любой частотой встречается лишь небольшое количество тем.

Распознавание почерка

Следующий пример основан на примере Кристофера М. Бишопа , Распознавание образов и машинное обучение .

Представьте, что нам дано черно-белое изображение размером N × N, которое, как известно, является сканированием рукописной цифры от 0 до 9, но мы не знаем, какая цифра написана. Мы можем создать модель смеси с различными компонентами, где каждый компонент представляет собой вектор размера из распределений Бернулли ( по одному на пиксель). Такую модель можно обучить с помощью алгоритма максимизации ожидания на немаркированном наборе рукописных цифр, и она будет эффективно кластеризовать изображения в соответствии с записываемой цифрой. Затем ту же модель можно использовать для распознавания цифры другого изображения, просто сохраняя параметры постоянными, вычисляя вероятность нового изображения для каждой возможной цифры (тривиальное вычисление) и возвращая цифру, которая сгенерировала наивысшую вероятность. ${\ displaystyle K = 10}$ ${\ Displaystyle N ^ {2}}$

Оценка точности снаряда (также известная как круговая вероятность ошибки, CEP)

Модели смеси применяются в задаче наведения нескольких снарядов на цель (например, в приложениях для защиты в воздухе, на суше или на море), где физические и / или статистические характеристики снарядов различаются в пределах нескольких снарядов. Примером могут быть выстрелы из нескольких типов боеприпасов или выстрелы из нескольких мест по одной цели. Комбинацию типов снарядов можно охарактеризовать как модель смеси Гаусса. Кроме того, хорошо известной мерой точности для группы снарядов является круговая вероятная ошибка (CEP), которая представляет собой число R, такое, что в среднем половина группы снарядов попадает в круг радиуса R вокруг цели. точка. Модель смесь может быть использована для определения (или оценки) значение R . Модель смеси правильно захватывает различные типы снарядов.

Прямые и косвенные приложения

Приведенный выше финансовый пример представляет собой одно прямое применение смешанной модели, ситуации, в которой мы предполагаем наличие базового механизма, так что каждое наблюдение принадлежит одному из некоторого количества различных источников или категорий. Однако этот лежащий в основе механизм может быть или не наблюдаться. В этой форме смеси каждый из источников описывается функцией плотности вероятности компонента, а его вес смеси представляет собой вероятность того, что наблюдение исходит от этого компонента.

При косвенном применении модели смеси мы не предполагаем наличия такого механизма. Модель смеси используется просто из-за ее математической гибкости. Например, смесь двух нормальных распределений с разными средними значениями может привести к плотности с двумя модами , которая не моделируется стандартными параметрическими распределениями. Другой пример - возможность смешанных распределений для моделирования более толстых хвостов, чем основные гауссовы, чтобы быть кандидатом для моделирования более экстремальных явлений. В сочетании с динамической согласованностью этот подход был применен к оценке производных финансовых инструментов при наличии улыбки волатильности в контексте моделей локальной волатильности . Это определяет наше приложение.

Профилактическое обслуживание

Кластеризация на основе смешанной модели также преимущественно используется для определения состояния машины при профилактическом обслуживании . Графики плотности используются для анализа плотности объектов больших размеров. Если наблюдаются многомодельные плотности, то предполагается, что конечный набор плотностей формируется конечным набором нормальных смесей. Многомерная модель гауссовой смеси используется для кластеризации данных признаков в k групп, где k представляет каждое состояние машины. Состояние машины может быть нормальным, отключенным или неисправным. Каждый сформированный кластер можно диагностировать с помощью таких методов, как спектральный анализ. В последние годы это также широко использовалось в других областях, таких как раннее обнаружение неисправностей.

Сегментация нечетких изображений

Пример гауссовой смеси в сегментации изображения с серой гистограммой

В обработке изображений и компьютерном зрении традиционные модели сегментации изображений часто присваивают одному пикселю только один эксклюзивный узор. При нечеткой или мягкой сегментации любой шаблон может иметь определенное «право собственности» на любой отдельный пиксель. Если шаблоны являются гауссовыми, нечеткая сегментация естественным образом приводит к гауссовым смесям. В сочетании с другими аналитическими или геометрическими инструментами (например, фазовые переходы через диффузные границы) такие пространственно регуляризованные модели смеси могут привести к более реалистичным и вычислительно эффективным методам сегментации.

Регистрация набора точек

Вероятностные модели смеси, такие как модели смеси Гаусса (GMM), используются для решения проблем регистрации набора точек в полях обработки изображений и компьютерного зрения. Для попарной регистрации набора точек один набор точек рассматривается как центроиды моделей смеси, а другой набор точек рассматривается как точки данных (наблюдения). К современным методам относятся, например, когерентный дрейф точки (CPD) и модели смеси t-распределения Стьюдента (TMM). Результат недавнего исследования демонстрирует превосходство моделей гибридной смеси (например, сочетание t-распределения Стьюдента и распределения Ватсона / распределения Бингема для моделирования пространственных положений и ориентации осей отдельно) по сравнению с CPD и TMM с точки зрения присущей им устойчивости, точности и дискриминирующей способности. .

Идентифицируемость

Идентифицируемость означает наличие уникальной характеристики для любой из моделей рассматриваемого класса (семейства). Процедуры оценки могут быть плохо определены, и асимптотическая теория может не работать, если модель не идентифицируема.

Пример

Пусть J - класс всех биномиальных распределений с n = 2 . Тогда смесь двух членов J будет иметь

{\ displaystyle p_ {0} = \ pi (1- \ theta _ {1}) ^ {2} + (1- \ pi) (1- \ theta _ {2}) ^ {2}}

{\ displaystyle p_ {1} = 2 \ pi \ theta _ {1} (1- \ theta _ {1}) + 2 (1- \ pi) \ theta _ {2} (1- \ theta _ {2} )}

и p ₂ = 1 - p ₀ - p ₁ . Ясно, что при p ₀ и p ₁ невозможно однозначно определить указанную выше модель смеси, поскольку необходимо определить три параметра ( π , θ ₁ , θ ₂ ).

Определение

Рассмотрим смесь параметрических распределений одного класса. Позволять

{\ Displaystyle J = \ {е (\ cdot; \ theta): \ theta \ in \ Omega \}}

быть классом всех компонентных распределений. Тогда выпуклая оболочка К из J определяет класс всех конечных смеси распределений в J :

{\ displaystyle K = \ left \ {p (\ cdot): p (\ cdot) = \ sum _ {i = 1} ^ {n} a_ {i} f_ {i} (\ cdot; \ theta _ {i }), a_ {i}> 0, \ sum _ {i = 1} ^ {n} a_ {i} = 1, f_ {i} (\ cdot; \ theta _ {i}) \ in J \ \ forall i, n \ right \}}

K называется идентифицируемым, если все его элементы уникальны, то есть для двух членов p и p ′ в K , являющихся смесью k распределений и k ′ распределений соответственно в J , мы имеем p = p ′ тогда и только тогда, когда, во-первых, k = k ′, а во-вторых, мы можем переупорядочить суммирования так, чтобы a _i = a _i ′ и ƒ _i = ƒ _i ′ для всех i .

Оценка параметров и идентификация системы

Параметрические модели смеси часто используются, когда мы знаем распределение Y и можем производить выборку из X , но мы хотели бы определить значения a _i и θ _i . Такие ситуации могут возникать в исследованиях, в которых мы выбираем группу, состоящую из нескольких отдельных субпопуляций.

Принято думать о моделировании смеси вероятностей как о проблеме с отсутствующими данными. Один из способов понять это - предположить, что рассматриваемые точки данных имеют «членство» в одном из распределений, которые мы используем для моделирования данных. Когда мы начинаем, это членство неизвестно или отсутствует. Задача оценки состоит в том, чтобы разработать соответствующие параметры для функций модели, которые мы выбираем, с подключением к точкам данных, представленным как их членство в отдельных распределениях модели.

Было предложено множество подходов к проблеме разложения смеси, многие из которых сосредоточены на методах максимального правдоподобия, таких как максимизация ожидания (EM) или максимальная апостериорная оценка (MAP). Как правило, эти методы рассматривают отдельно вопросы идентификации системы и оценки параметров; Методы определения количества и функциональной формы компонентов в смеси отличаются от методов оценки соответствующих значений параметров. Некоторыми заметными отклонениями являются графические методы, описанные в работах Тартера и Локка, а также недавние методы минимальной длины сообщения (MML), такие как Фигейредо и Джайн, и в некоторой степени процедуры анализа шаблонов совпадения моментов, предложенные Маквильямом и Ло (2009).

Максимизация ожиданий (EM)

Максимизация ожидания (EM) - это, по-видимому, самый популярный метод, используемый для определения параметров смеси с заранее заданным числом компонентов. Это особый способ реализации оценки максимального правдоподобия для этой проблемы. EM особенно привлекательна для конечных нормальных смесей, где возможны выражения в замкнутой форме, например, в следующем итерационном алгоритме Демпстера и др. (1977)

{\ displaystyle w_ {s} ^ {(j + 1)} = {\ frac {1} {N}} \ sum _ {t = 1} ^ {N} h_ {s} ^ {(j)} (т )}

{\ displaystyle \ mu _ {s} ^ {(j + 1)} = {\ frac {\ sum _ {t = 1} ^ {N} h_ {s} ^ {(j)} (t) x ^ { (t)}} {\ sum _ {t = 1} ^ {N} h_ {s} ^ {(j)} (t)}}}

{\ Displaystyle \ Sigma _ {s} ^ {(j + 1)} = {\ frac {\ sum _ {t = 1} ^ {N} h_ {s} ^ {(j)} (t) [x ^ {(t)} - ​​\ mu _ {s} ^ {(j + 1)}] [x ^ {(t)} - ​​\ mu _ {s} ^ {(j + 1)}] ^ {\ top} } {\ sum _ {t = 1} ^ {N} h_ {s} ^ {(j)} (t)}}}

с апостериорными вероятностями

{\ Displaystyle h_ {s} ^ {(j)} (t) = {\ frac {w_ {s} ^ {(j)} p_ {s} (x ^ {(t)}; \ mu _ {s} ^ {(j)}, \ Sigma _ {s} ^ {(j)})} {\ sum _ {i = 1} ^ {n} w_ {i} ^ {(j)} p_ {i} (x ^ {(t)}; \ mu _ {i} ^ {(j)}, \ Sigma _ {i} ^ {(j)})}}.}.

Таким образом, на основе текущей оценки параметров, условная вероятность для данного наблюдения x ^{( t )} , генерируемого из состояния s , определяется для каждого t = 1,…, N ; N - размер выборки. Затем параметры обновляются таким образом, чтобы новые веса компонентов соответствовали средней условной вероятности, а среднее значение и ковариация каждого компонента были средневзвешенными значениями среднего и ковариации для каждого компонента для всей выборки.

Демпстер также показал, что каждая последующая итерация ЭМ не снижает вероятность, а это свойство не присуще другим методам максимизации на основе градиента. Более того, EM естественным образом включает в себя ограничения на вектор вероятности, и для достаточно больших размеров выборки повторяется положительная определенность ковариации. Это ключевое преимущество, поскольку явно ограниченные методы требуют дополнительных вычислительных затрат на проверку и поддержание соответствующих значений. Теоретически EM является алгоритмом первого порядка и поэтому медленно сходится к решению с фиксированной точкой. Реднер и Уокер (1984) приводят доводы в пользу суперлинейных методов Ньютона и квазиньютона второго порядка и сообщают о медленной сходимости в ЭМ на основе своих эмпирических тестов. Они действительно признают, что сходимость вероятностей была быстрой, даже если сходимости в самих значениях параметров не было. Относительные преимущества EM и других алгоритмов по сравнению с конвергенцией обсуждались в другой литературе.

Другие распространенные возражения против использования ЭМ заключаются в том, что он имеет склонность к ложному определению локальных максимумов, а также к отображению чувствительности к начальным значениям. Можно решить эти проблемы, оценивая ЭМ в нескольких начальных точках в пространстве параметров, но это требует больших вычислительных затрат и других подходов, таких как метод ЭМ отжига Удэа и Накано (1998) (в котором начальные компоненты по существу вынуждены перекрываться, предоставление менее неоднородной основы для первоначальных предположений), может быть предпочтительным.

Фигейредо и Джейн отмечают, что сходимость к «бессмысленным» значениям параметров, полученным на границе (где нарушение условий регулярности, например, Ghosh and Sen (1985)), часто наблюдается, когда количество компонентов модели превышает оптимальное / истинное. На этой основе они предлагают единый подход к оценке и идентификации, в котором начальное n выбирается так, чтобы оно значительно превышало ожидаемое оптимальное значение. Их процедура оптимизации построена на основе критерия минимальной длины сообщения (MML), который эффективно исключает компонент-кандидат, если для его поддержки недостаточно информации. Таким образом можно систематизировать сокращения n и рассматривать оценку и идентификацию совместно.

Алгоритм Expectation-максимизация может быть использован для вычисления параметров параметрического распределения модельной смеси (в а _я и θ _я ). Это итеративный алгоритм с двумя шагами: шаг ожидания и шагом максимизации . Практические примеры электромагнитного моделирования и моделирования смеси включены в демонстрации SOCR .

Шаг ожидания

С начальными предположениями о параметрах нашей модели смеси, «частичное членство» каждой точки данных в каждом распределении составляющих вычисляется путем вычисления значений ожидания для переменных членства каждой точки данных. То есть для каждой точки данных x _j и распределения Y _i значение членства y _{i , j} равно:

{\ displaystyle y_ {i, j} = {\ frac {a_ {i} f_ {Y} (x_ {j}; \ theta _ {i})} {f_ {X} (x_ {j})}}. }

Шаг максимизации

Имея ожидаемые значения для членства в группах, оценки подключаемых модулей пересчитываются для параметров распределения.

Коэффициенты смешивания a _i представляют собой средние значения значений принадлежности по N точкам данных.

{\ displaystyle a_ {i} = {\ frac {1} {N}} \ sum _ {j = 1} ^ {N} y_ {i, j}}

Параметры модели компонента θ _i также вычисляются путем максимизации ожидания с использованием точек данных x _j , которые были взвешены с использованием значений принадлежности. Например, если θ - среднее μ

{\ displaystyle \ mu _ {i} = {\ frac {\ sum _ {j} y_ {i, j} x_ {j}} {\ sum _ {j} y_ {i, j}}}.}

С новыми оценками для в _I а θ _я ' s, шаг ожидания повторяется пересчитывать новые значения членства. Вся процедура повторяется до тех пор, пока параметры модели не сойдутся.

Цепь Маркова Монте-Карло

В качестве альтернативы алгоритму EM параметры модели смеси могут быть выведены с использованием апостериорной выборки, как указано в теореме Байеса . Это все еще рассматривается как проблема неполных данных, когда принадлежность точек данных является отсутствующими данными. Можно использовать двухэтапную итеративную процедуру, известную как выборка Гиббса .

Предыдущий пример смеси двух гауссовых распределений может продемонстрировать, как работает метод. Как и ранее, делаются первоначальные предположения о параметрах модели смеси. Вместо вычисления частичного членства для каждого элементарного распределения значение членства для каждой точки данных берется из распределения Бернулли (то есть оно будет присвоено либо первому, либо второму гауссиану). Параметр Бернулли θ определяется для каждой точки данных на основе одного из составляющих распределений. Чертежи из распределения создают ассоциации членства для каждой точки данных. Затем можно использовать дополнительные модули оценки, как на этапе M программы EM, чтобы сгенерировать новый набор параметров модели смеси, и повторить этап биномиального рисования.

Соответствие моментов

Метод согласования моментов является одним из старейших методов для определения параметров смеси , уходящих к оригинальной работе Карла Пирсона 1894. В этом подходе параметры смеси определена таким образом, что композиционное распределение имеет моменты соответствия некоторое заданное значения. Во многих случаях получение решений моментных уравнений может представлять нетривиальные алгебраические или вычислительные проблемы. Более того, численный анализ Дэя показал, что такие методы могут быть неэффективными по сравнению с ЭМ. Тем не менее, интерес к этому методу возобновился, например, Craigmile, Titterington (1998) и Wang.

McWilliam и Loh (2009) рассматривают характеристику гиперкубовидной нормальной смешанной связки в системах большой размерности, для которых EM была бы недопустимой с вычислительной точки зрения. Здесь процедура анализа паттернов используется для генерации многомерных хвостовых зависимостей, согласующихся с набором одномерных и (в некотором смысле) двумерных моментов. Затем эффективность этого метода оценивается с использованием данных логарифмической доходности капитала со статистикой теста Колмогорова – Смирнова, предполагающей хорошее описательное соответствие.

Спектральный метод

Некоторые задачи оценки модели смеси могут быть решены с помощью спектральных методов . В частности, это становится полезным, если точки данных x _i являются точками в многомерном реальном пространстве , а скрытые распределения известны как логарифмически вогнутые (например, распределение Гаусса или экспоненциальное распределение ).

Спектральные методы изучения моделей смеси основаны на использовании разложения по сингулярным значениям матрицы, содержащей точки данных. Идея состоит в том, чтобы рассмотреть верхние k сингулярных векторов, где k - количество распределений, которые необходимо изучить. Проекция каждой точки данных на линейное подпространство, охватываемое этими векторами, группирует точки, происходящие из одного распределения, очень близко друг к другу, в то время как точки из разных распределений остаются далеко друг от друга.

Отличительной особенностью спектрального метода является то, что он позволяет нам доказать, что если распределения удовлетворяют определенному условию разделения (например, не слишком близко), то оцененная смесь с большой вероятностью будет очень близка к истинной.

Графические методы

Тартер и Лок описывают графический подход к идентификации смеси, в котором функция ядра применяется к эмпирической частотной диаграмме, чтобы уменьшить внутрикомпонентную дисперсию. Таким образом можно более легко идентифицировать компоненты, имеющие разные средства. Хотя этот λ- метод не требует предварительного знания количества или функциональной формы компонентов, его успех зависит от выбора параметров ядра, которые в некоторой степени неявно включают предположения о структуре компонентов.

Другие методы

Некоторые из них, вероятно, могут даже изучить смеси распределений с тяжелыми хвостами, в том числе с бесконечной дисперсией (см. Ссылки на статьи ниже). В этой настройке методы на основе EM не будут работать, поскольку шаг ожидания будет отличаться из-за наличия выбросов .

Симуляция

Чтобы смоделировать выборку размера N, которая является смесью распределений F _i , от i = 1 до n , с вероятностями p _i (сумма = p _i = 1):

Сгенерируйте N случайных чисел из категориального распределения размера n и вероятностей p _i для i = 1 = до n . Они сообщают вам, из какого F _i будет происходить каждое из N значений. Обозначим через m _i количество случайных чисел, отнесенных к i- ^й категории.
Для каждого i сгенерируйте m _i случайных чисел из распределения F _i .

Расширения

В байесовской настройке к графической модели могут быть добавлены дополнительные уровни, определяющие модель смеси. Например, в общей скрытой модели распределения тем Дирихле наблюдения представляют собой наборы слов, взятых из D различных документов, а компоненты смеси K представляют темы, которые используются в разных документах. Каждый документ имеет различный набор весов смеси, которые определяют темы, преобладающие в этом документе. Все наборы весов смеси имеют общие гиперпараметры .

Очень распространенное расширение - соединение скрытых переменных, определяющих идентичности компонентов смеси, в цепь Маркова , вместо того, чтобы предполагать, что они являются независимыми одинаково распределенными случайными величинами. Полученная модель называется скрытой марковской моделью и является одной из наиболее распространенных последовательных иерархических моделей. Были разработаны многочисленные расширения скрытых марковских моделей; см. получившуюся статью для получения дополнительной информации.

История

Распределение смесей и проблема разложения смеси, то есть идентификация составляющих ее компонентов и их параметров, цитировались в литературе еще в 1846 году (Quetelet in McLachlan, 2000), хотя часто упоминаются работы Карла. Пирсон (1894) как первый автор, который явно обратился к проблеме разложения при характеристике ненормальных атрибутов отношения лба к длине тела в популяциях самок берегового краба. Мотивация для этой работы была предоставлена зоологом Уолтером Фрэнком Рафаэлем Велдоном, который предположил в 1893 году (у Тартера и Локка), что асимметрия в гистограмме этих соотношений может сигнализировать об эволюционной дивергенции. Подход Пирсона заключался в подборе одномерной смеси двух нормалей к данным путем выбора пяти параметров смеси таким образом, чтобы эмпирические моменты совпадали с данными модели.

В то время как его работа была успешной в идентификации двух потенциально различных субпопуляций и в демонстрации гибкости смесей как инструмента согласования моментов, формулировка требовала решения полинома 9-й степени (nonic), что в то время представляло собой значительную вычислительную проблему.

Последующие работы были сосредоточены на решении этих проблем, но только с появлением современного компьютера и популяризацией методов параметризации методом максимального правдоподобия (MLE) исследования стали действительно популярными . С того времени был проведен обширный объем исследований по этой теме, охватывающей такие области, как исследования рыболовства , сельское хозяйство , ботаника , экономика , медицина , генетика , психология , палеонтология , электрофорез , финансы , геология и зоология .

Смотрите также

Смесь

Иерархические модели

Обнаружение выбросов

RANSAC

использованная литература

дальнейшее чтение

Книги по моделям смесей

Everitt, BS; Рука, ди-джей (1981). Распределения конечной смеси . Чепмен и Холл. ISBN 978-0-412-22420-1.
Линдси, Б.Г. (1995). Модели смесей: теория, геометрия и приложения . Серия региональных конференций NSF-CBMS по вероятности и статистике. 5 . Хейворд: Институт математической статистики.
Марин, JM; Менгерсен, К .; Роберт, CP (2011). «Байесовское моделирование и вывод о смесях распределений» (PDF) . In Dey, D .; Рао, CR (ред.). Основные байесовские модели . Справочник по статистике: байесовское мышление - моделирование и вычисления. 25 . Эльзевир. ISBN 9780444537324.
McLachlan, GJ; Пил, Д. (2000). Модели конечной смеси . Вайли. ISBN 978-0-471-00626-8.
Нажмите, WH; Теукольский, С.А. Феттерлинг, штат Вашингтон; Фланнери, ВР (2007). «Раздел 16.1. Модели гауссовской смеси и кластеризация k-средних» . Числовые рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-88068-8.
Titterington, D .; Smith, A .; Маков У. (1985). Статистический анализ распределений конечной смеси . Вайли. ISBN 978-0-471-90763-3.

Применение моделей гауссовой смеси

Рейнольдс, DA; Роуз, RC (январь 1995 г.). «Надежная независимая от текста идентификация говорящего с использованием моделей говорящего на смеси Гаусса». Транзакции IEEE по обработке речи и звука . 3 (1): 72–83. DOI : 10.1109 / 89.365379 .
Permuter, H .; Francos, J .; Джермин, IH (2003). Модели гауссовой смеси текстуры и цвета для поиска в базе данных изображений . Международная конференция IEEE по акустике, речи и обработке сигналов , 2003. Труды (ICASSP '03). DOI : 10.1109 / ICASSP.2003.1199538 .
- Пермутер, Хаим; Франко, Джозеф; Джермин, Ян (2006). «Исследование гауссовских моделей смеси цветов и свойств текстуры для классификации и сегментации изображений» (PDF) . Распознавание образов . 39 (4): 695–706. Bibcode : 2006PatRe..39..695P . DOI : 10.1016 / j.patcog.2005.10.028 .
Лемке, Вольфганг (2005). Моделирование и оценка структуры терминов в рамках пространства состояний . Springer Verlag. ISBN 978-3-540-28342-3.
Бриго, Дамиано ; Меркурио, Фабио (2001). Смещенные и смешанные диффузии для аналитически поддающихся обработке моделей улыбки . Математические финансы - Конгресс бакалавриата 2000. Труды. Springer Verlag.
Бриго, Дамиано; Меркурио, Фабио (июнь 2002 г.). «Логнормальная динамика смеси и калибровка волатильности рынка улыбается». Международный журнал теоретических и прикладных финансов . 5 (4): 427. CiteSeerX 10.1.1.210.4165 . DOI : 10.1142 / S0219024902001511 .
Spall, JC; Марьяк, JL (1992). «Возможная байесовская оценка квантилей точности снаряда на основе данных, отличных от iid». Журнал Американской статистической ассоциации . 87 (419): 676–681. DOI : 10.1080 / 01621459.1992.10475269 . JSTOR 2290205 .
Александр, Кэрол (декабрь 2004 г.). «Нормальная диффузия смеси с неопределенной летучестью: моделирование краткосрочных и долгосрочных эффектов улыбки» (PDF) . Журнал "Банковское дело и финансы" . 28 (12): 2957–80. DOI : 10.1016 / j.jbankfin.2003.10.017 .
Стилиану, Яннис; Пантазис, Яннис; Кальдереро, Фелипе; Ларрой, Педро; Северин, Франсуа; Шимке, Саша; Бонал, Роландо; Матта, Федерико; Валсамакис, Афанасиос (2005). Мультимодальная биометрическая проверка на основе GMM (PDF) .
Chen, J .; Adebomi, 0.E .; Olusayo, OS; Кулеша, В. (2010). Оценка плотности гипотезы вероятности гауссовой смеси для отслеживания нескольких целей . Международная конференция IEEE по системам и методам обработки изображений , 2010 г. doi : 10.1109 / IST.2010.5548541 .

внешние ссылки

Нильсен, Франк (23 марта 2012 г.). «K-MLE: быстрый алгоритм для изучения моделей статистической смеси».k -MLE: быстрый алгоритм для изучения моделей статистической смеси . 2012 Международная конференция IEEE по акустике, обработке речи и сигналов (ICASSP) . С. 869–872. arXiv : 1203.5181 . Bibcode : 2012arXiv1203.5181N . DOI : 10.1109 / ICASSP.2012.6288022 . ISBN 978-1-4673-0046-9. S2CID 935615 .
В SoCR демонстрации ЭМ , а смесь моделирования
Страница моделирования смеси (и программа Snob для минимальной длины сообщения ( MML ), применяемая к моделям конечной смеси), поддерживаемая DL Dowe.
PyMix - Python Mixture Package, алгоритмы и структуры данных для широкого спектра приложений интеллектуального анализа данных на основе смешанных моделей в Python
sklearn.mixture - пакет Python для изучения гауссовских моделей смеси (и выборки из них), ранее упакованный с SciPy, а теперь упакованный как SciKit
GMM.m код Matlab для реализации GMM
GPUmix C ++ реализация байесовских моделей смеси с использованием EM и MCMC со 100-кратным ускорением с использованием GPGPU.
[3] Код Matlab для реализации GMM с использованием алгоритма EM.
[4] jMEF: Java-библиотека с открытым исходным кодом для изучения и обработки смесей экспоненциальных семейств (с использованием двойственности с расхождениями Брегмана). Включает оболочку Matlab.
Очень быстрая и чистая реализация алгоритма максимизации ожидания (EM) на языке C для оценки моделей гауссовой смеси (GMM).
mclust - это пакет R для моделирования смеси.
dpgmm Реализация модели гауссовской смеси процесса Дирихле на чистом Python (вариационная).
Публикация в блоге о моделях гауссовой смеси, посвященная моделям гауссовой смеси, обученным с помощью максимизации ожиданий, с реализацией на Python.

Languages

In other projects