Оценка частоты Гуда – Тьюринга - Good–Turing frequency estimation

Оценка частоты Гуда – Тьюринга - это статистический метод оценки вероятности встречи с объектом невиданного до сих пор вида, учитывая набор прошлых наблюдений за объектами разных видов. При извлечении шаров из урны «объектами» будут шары, а «разновидностями» будут различные цвета шаров (конечное, но неизвестное число). После рисования красных шаров, черных и зеленых шаров мы спрашиваем, какова вероятность выпадения красного, черного, зеленого или ранее невидимого цвета.

Историческое прошлое

Оценка частоты Гуда – Тьюринга была разработана Аланом Тьюрингом и его помощником И. Дж. Гудом как часть их методов, используемых в Блетчли-парке для взлома немецких шифров для машины Enigma во время Второй мировой войны . Тьюринг сначала смоделировал частоты как полиномиальное распределение , но счел его неточным. Хорошо разработанные алгоритмы сглаживания для повышения точности оценки.

Открытие было признано значительным, когда оно было опубликовано Good в 1953 году, но расчеты были трудными, поэтому оно не использовалось так широко, как могло бы. Метод даже получил некоторую литературную известность благодаря роману Роберта Харриса « Загадка» .

В 1990-х Джеффри Сэмпсон работал с Уильямом А. Гейлом из AT&T над созданием и реализацией упрощенного и легкого в использовании варианта метода Гуда – Тьюринга, описанного ниже. Были предоставлены различные эвристические обоснования и простой комбинаторный вывод.

Метод

Обозначение

  • Предполагая, что наблюдались отдельные виды, перечислялись .
  • Тогда частотный вектор имеет элементы, которые дают количество особей, которые наблюдались для видов .
  • Вектор частот , показывает, сколько раз частота r встречается в векторе (т.е. среди элементов ):

Например, это количество видов, для которых наблюдалась только одна особь. Обратите внимание, что общее количество наблюдаемых объектов , можно найти из

Первым шагом в расчетах является оценка вероятности того, что будущая наблюдаемая особь (или следующая наблюдаемая особь) является членом до сих пор невидимого вида. Эта оценка составляет:

Следующим шагом является оценка вероятности того, что следующая наблюдаемая особь принадлежит к виду, которого видели много раз. Для одного вида эта оценка составляет:

Чтобы оценить вероятность того, что следующая наблюдаемая особь принадлежит к любому виду из этой группы (т. Е. К группе видов, которую видели раз), можно использовать следующую формулу:

Здесь обозначение означает сглаженное или скорректированное значение частоты, показанное в скобках (см. Также эмпирический метод Байеса ). Обзор того, как выполнить это сглаживание, приведен ниже.

Мы хотели бы построить график зависимости, но это проблематично, потому что для больших многие будут равны нулю. Вместо этого пересмотренное количество отображается в зависимости от , где Z r определяется как

и где q , r и t - последовательные индексы, не равные нулю. Когда r равно 1, принять q равным 0. Когда r является последней ненулевой частотой, принять значение .

Предположение оценки Гуда – Тьюринга состоит в том, что количество встречаемости каждого вида следует биномиальному распределению.

Простая линейная регрессия затем подгоняется к логарифмической. Для малых значений целесообразно установить (то есть сглаживание не выполняется), а для больших значений r значения считываются с линии регрессии. Можно использовать автоматическую процедуру (не описанную здесь), чтобы указать, в какой момент должен происходить переход от отсутствия сглаживания к линейному сглаживанию. Код метода доступен в открытом доступе.

Вывод

Было дано много различных выводов вышеуказанной формулы для .

Один из самых простых способов мотивировать формулу - предположить, что следующий элемент будет вести себя так же, как предыдущий. Общая идея оценщика состоит в том, что в настоящее время мы видим невидимые предметы с определенной частотой, предметы, которые видели один раз с определенной частотой, предметы, которые видели дважды с определенной частотой, и так далее. Наша цель - оценить, насколько вероятна каждая из этих категорий, для следующего пункта, который мы увидим. Другими словами, мы хотим знать текущую скорость, с которой элементы, которые дважды просмотрели, становятся элементами, которые были просмотрены трижды, и так далее. Поскольку мы ничего не предполагаем о лежащем в основе распределении вероятностей, поначалу это звучит немного загадочно. Но очень легко эмпирически вычислить эти вероятности для предыдущего предмета, который мы видели, даже если предположить, что мы точно не помним, какой это был предмет: возьмите все предметы, которые мы видели до сих пор (включая множественности) - последний предмет, который мы видели, был случайный из них, все одинаково вероятны. В частности, шанс, что мы видели предмет в -й раз, - это просто шанс, что это был один из предметов, которые мы сейчас видели раз, а именно . Другими словами, наш шанс увидеть предмет, который видели раньше r раз, был . Итак, теперь мы просто предполагаем, что этот шанс будет примерно таким же для следующего предмета, который мы увидим. Это сразу дает нам формулу выше , установив . И для того , чтобы получить вероятность того, что конкретный один из предметов будет следующим, который увидят, нам нужно разделить эту вероятность (увидеть какой-то предмет, который видели r раз) между возможностями, для которого конкретный предмет может быть. Это дает нам формулу . Конечно, ваши фактические данные, вероятно, будут немного зашумленными, поэтому вам нужно сначала сгладить значения, чтобы лучше оценить, насколько быстро растет количество категорий, и это дает формулу, как показано выше. Этот подход в том же духе, что и получение стандартной оценки Бернулли , просто спрашивая, каковы были две вероятности для предыдущего подбрасывания монеты (после скремблирования испытаний, замеченных до сих пор), учитывая только текущий результат, при этом ничего не предполагая о базовом распределении. .

Смотрите также

использованная литература

Библиография