Статистическая классификация - Statistical classification

В статистике , классификация является проблемой определения того, какие из множества категорий (субпопуляции) с наблюдением , (или наблюдение) принадлежит. Примеры: отнесение данного электронного письма к классу «спам» или «не спам» и постановка диагноза данному пациенту на основе наблюдаемых характеристик пациента (пол, артериальное давление, наличие или отсутствие определенных симптомов и т. Д.) .

Часто отдельные наблюдения анализируются в виде набора количественных характеристик, известных также как объясняющие переменные или характеристики . Эти свойства могут быть по-разному категориальными (например, «A», «B», «AB» или «O» для группы крови ), порядковыми (например, «большой», «средний» или «маленький»), целочисленными (например, количество вхождений определенного слова в электронном письме ) или с действительным знаком (например, измерение артериального давления ). Другие классификаторы работают, сравнивая наблюдения с предыдущими наблюдениями с помощью функции подобия или расстояния .

Алгоритм , реализующие классификации, особенно в реализации конкретной, известен как классификатор . Термин «классификатор» иногда также относится к математической функции , реализованной алгоритмом классификации, который отображает входные данные в категорию.

Терминология в разных областях весьма разнообразна. В статистике , где классификация часто делаются с логистической регрессией или аналогичной процедурой, свойство наблюдений, называется объясняющим переменным (или независимыми переменными , регрессор и т.д.), и категория , которые будут предсказано известно как результаты, которые считаются быть возможными значениями зависимой переменной . В машинном обучении наблюдения часто называются экземплярами , объясняющие переменные называются функциями (сгруппированы в вектор признаков ), а возможные категории, которые необходимо прогнозировать, - это классы . В других областях может использоваться другая терминология: например, в общественной экологии термин «классификация» обычно относится к кластерному анализу .

Отношение к другим проблемам

Классификация и кластеризация являются примерами более общей проблемы распознавания образов , которая заключается в присвоении некоторого выходного значения заданному входному значению. Другими примерами являются регрессия , при которой каждому входу присваивается результат с действительным знаком; маркировка последовательности , которая присваивает класс каждому члену последовательности значений (например, тегирование части речи , которое присваивает часть речи каждому слову во входном предложении); синтаксический анализ , который присваивает входному предложению дерево синтаксического анализа , описывающее синтаксическую структуру предложения; и т.п.

Общий подкласс классификации - вероятностная классификация . Алгоритмы такого рода используют статистический вывод, чтобы найти лучший класс для данного экземпляра. В отличие от других алгоритмов, которые просто выводят «лучший» класс, вероятностные алгоритмы выводят вероятность того, что экземпляр является членом каждого из возможных классов. Затем обычно выбирается лучший класс с наибольшей вероятностью. Однако такой алгоритм имеет ряд преимуществ перед не вероятностными классификаторами:

  • Он может выводить значение достоверности, связанное с его выбором (обычно классификатор, который может это делать, известен как классификатор, взвешенный по достоверности ).
  • Соответственно, он может воздержаться, когда его уверенность в выборе какого-либо конкретного выхода слишком мала.
  • Из-за генерируемых вероятностей вероятностные классификаторы могут быть более эффективно включены в более крупные задачи машинного обучения таким образом, чтобы частично или полностью избежать проблемы распространения ошибок .

Частые процедуры

Ранняя работа по статистической классификации была предпринята Фишером в контексте задач с двумя группами, что привело к линейной дискриминантной функции Фишера как к правилу отнесения группы к новому наблюдению. В этой ранней работе предполагалось, что значения данных в каждой из двух групп имеют многомерное нормальное распределение . Расширение этого же контекста на более чем две группы также рассматривалось с ограничением, наложенным на то, что правило классификации должно быть линейным . Более поздняя работа над многомерным нормальным распределением позволила классификатору быть нелинейным : несколько правил классификации могут быть выведены на основе различных корректировок расстояния Махаланобиса , при этом новое наблюдение назначается группе, центр которой имеет наименьшее скорректированное расстояние от наблюдения.

Байесовские процедуры

В отличие от частотных процедур, процедуры байесовской классификации обеспечивают естественный способ учета любой доступной информации об относительных размерах различных групп в общей популяции. Байесовские процедуры имеют тенденцию быть дорогостоящими в вычислительном отношении, и за несколько дней до того, как были разработаны вычисления методом Монте-Карло с цепью Маркова, были разработаны аппроксимации для правил байесовской кластеризации.

Некоторые байесовские процедуры включают вычисление вероятностей членства в группах : они обеспечивают более информативный результат, чем простое присвоение единственной метки группы каждому новому наблюдению.

Бинарная и мультиклассовая классификация

Классификацию можно рассматривать как две отдельные проблемы - бинарную классификацию и многоклассовую классификацию . В бинарной классификации, более понятной задаче, участвуют только два класса, тогда как мультиклассовая классификация включает отнесение объекта к одному из нескольких классов. Поскольку многие методы классификации были разработаны специально для двоичной классификации, многоклассовая классификация часто требует комбинированного использования нескольких двоичных классификаторов.

Векторы признаков

Большинство алгоритмов описывают отдельный экземпляр, категория которого должна быть спрогнозирована с использованием вектора характеристик отдельных измеримых свойств экземпляра. Каждое свойство называется функция , также известный в статистике в качестве объясняющей переменной (или независимой переменной , хотя признаки могут или не могут быть статистически независимы ). Функции могут быть по-разному двоичными (например, «включено» или «выключено»); категориальный (например, «A», «B», «AB» или «O» для группы крови ); порядковый (например, «большой», «средний» или «маленький»); целочисленные (например, количество вхождений определенного слова в электронном письме); или с действительными значениями (например, измерение артериального давления). Если экземпляр является изображением, значения признаков могут соответствовать пикселям изображения; если экземпляр представляет собой фрагмент текста, значения функции могут быть частотами появления разных слов. Некоторые алгоритмы работают только с дискретными данными и требуют, чтобы данные с действительными или целыми значениями были дискретно разделены на группы (например, меньше 5, от 5 до 10 или больше 10).

Линейные классификаторы

Большое количество алгоритмов классификации можно сформулировать в терминах линейной функции, которая присваивает оценку каждой возможной категории k путем объединения вектора признаков экземпляра с вектором весов с использованием скалярного произведения . Прогнозируемая категория - это категория с наивысшим баллом. Этот тип функции оценки известен как функция линейного предсказания и имеет следующую общую форму:

где X i - вектор признаков, например i , β k - вектор весов, соответствующий категории k , а оценка ( X i , k ) - оценка, связанная с присвоением экземпляра i категории k . В теории дискретного выбора , где экземпляры представляют людей, а категории представляют выбор, оценка считается полезностью, связанной с человеком i, выбирающим категорию k .

Алгоритмы с этой базовой настройкой известны как линейные классификаторы . Их отличает процедура определения (обучения) оптимальных весов / коэффициентов и способ интерпретации оценки.

Примеры таких алгоритмов:

Алгоритмы

Поскольку ни одна форма классификации не подходит для всех наборов данных, был разработан большой набор алгоритмов классификации. К наиболее часто используемым относятся:

Оценка

Производительность классификатора во многом зависит от характеристик классифицируемых данных. Не существует единого классификатора, который лучше всего работал бы со всеми заданными проблемами (явление, которое можно объяснить теоремой об отсутствии бесплатного обеда ). Были выполнены различные эмпирические тесты для сравнения производительности классификатора и определения характеристик данных, которые определяют производительность классификатора. Однако определение подходящего классификатора для данной проблемы - это все же больше искусство, чем наука.

Точность измерения и отзыв являются популярными показателями, используемыми для оценки качества системы классификации. В последнее время кривые рабочих характеристик приемника (ROC) использовались для оценки компромисса между показателями истинных и ложноположительных результатов алгоритмов классификации.

В качестве показателя производительности коэффициент неопределенности имеет преимущество перед простой точностью в том, что на него не влияют относительные размеры различных классов. Кроме того, это не повредит алгоритму за простую перестановку классов.

Домены приложений

Классификация имеет множество применений. В некоторых из них это используется как процедура интеллектуального анализа данных , в то время как в других проводится более подробное статистическое моделирование.

Смотрите также

Рекомендации