Образец сложность из машинного обучения алгоритма представляет собой количество тренинга-образцы , которые нужны для того , чтобы успешно изучить целевую функцию.
Точнее, сложность выборки - это количество обучающих выборок, которые нам нужно предоставить алгоритму, чтобы функция, возвращаемая алгоритмом, находилась в пределах произвольно малой ошибки наилучшей возможной функции с вероятностью, произвольно близкой к 1.
Возможны два варианта сложности выборки:
- Слабый вариант фиксирует определенное распределение ввода-вывода;
- Сильный вариант принимает сложность выборки наихудшего случая по всем распределениям ввода-вывода.
Теорема об отсутствии бесплатного обеда, обсуждаемая ниже, доказывает, что в общем случае сильная сложность выборки бесконечна, то есть не существует алгоритма, который мог бы изучить глобально оптимальную целевую функцию с использованием конечного числа обучающих выборок.
Однако, если нас интересует только конкретный класс целевых функций (например, только линейные функции), то сложность выборки конечна и линейно зависит от размерности VC в классе целевых функций.
Определение
Позвольте быть пространством, которое мы называем входным пространством, и быть пространством, которое мы называем выходным пространством, и пусть обозначает продукт . Например, в настройке двоичной классификации, как правило, это конечномерное векторное пространство и множество .
Зафиксируйте пространство гипотез функций . Алгоритм обучения - это вычислимая карта от до . Другими словами, это алгоритм, который принимает на вход конечную последовательность обучающих выборок и выводит функцию от до . Типичные алгоритмы обучения включают минимизацию эмпирического риска без регуляризации Тихонова или с ней .
Зафиксируйте функцию потерь , например, квадрат потерь , где . Для данного распределения на , то ожидаемый риск гипотезы (функция) является
В нашей настройке у нас есть , где - алгоритм обучения и последовательность векторов, которые все нарисованы независимо от . Определите оптимальный риск
Набор , для каждого . Обратите внимание, что это
случайная величина, которая зависит от случайной величины , взятой из распределения . Алгоритм называется согласованным, если вероятностно сходится к . Другими словами, для всех существует положительное целое число , такое, что для всех мы имеем
Образец сложность из является то минимумом , для которых это имеет место, как функция , и . Мы пишем сложность выборки, чтобы подчеркнуть, что это значение зависит от , и . Если это не соответствует , то мы устанавливаем . Если существует алгоритм , для которого конечен, то мы говорим , что пространство гипотез является изучаемым .
Другими словами, сложность выборки определяет степень согласованности алгоритма: с учетом желаемой точности и уверенности необходимо выполнить выборку точек данных, чтобы гарантировать, что риск выходной функции находится в пределах наилучшего возможного, по крайней мере, с вероятностью .
При вероятном приблизительно правильном (PAC) обучении нужно
знать , является ли сложность выборки полиномиальной , то есть ограничена ли полиномом от и . Если является полиномом для некоторого алгоритма обучения, то говорят, что пространство гипотез можно изучить с помощью PAC . Обратите внимание, что это более сильное понятие, чем возможность научиться.
Неограниченное пространство гипотез: бесконечная сложность выборки
Можно спросить, существует ли алгоритм обучения, чтобы сложность выборки была конечной в строгом смысле, то есть существует ограничение на количество необходимых выборок, чтобы алгоритм мог изучить любое распределение по пространству ввода-вывода с помощью указанная целевая ошибка. Более формально, можно спросить, существует ли алгоритм обучения , такой, что для всех существует положительное целое число, такое, что для всех мы имеем
где , как указано выше. Теорема о запрете бесплатного обеда гласит, что без ограничений на пространство гипотез это не так, т. Е. Всегда существуют «плохие» распределения, для которых сложность выборки произвольно велика.
Таким образом, чтобы сделать заявления о скорости сходимости величины
нужно либо
- ограничить пространство вероятностных распределений , например, с помощью параметрического подхода, или
- ограничить пространство гипотез , как в подходах без распределения.
Ограниченное пространство гипотез: конечная сложность выборки
Последний подход приводит к таким концепциям, как размерность VC и сложность Радемахера, которые управляют сложностью пространства . Меньшее пространство гипотез вносит больше смещения в процесс вывода, что означает, что он может быть больше, чем наилучший возможный риск в большем пространстве. Однако, ограничивая сложность пространства гипотез, алгоритм может создавать более единообразно согласованные функции. Этот компромисс приводит к концепции
регуляризации .
Теорема из теории VC состоит в
том, что следующие три утверждения эквивалентны для пространства гипотез :
-
можно изучить с помощью PAC.
- Размерность VC конечна.
-
является равномерным классом Гливенко-Кантелли .
Это дает возможность доказать, что определенные пространства гипотез могут быть изучены с помощью PAC и, соответственно, могут быть изучены.
Пример пространства гипотез, изучаемого с помощью PAC
, и пусть - пространство аффинных функций на , т. е. функций вида для некоторых . Это линейная классификация со смещенной задачей обучения. Теперь обратите внимание, что четыре компланарные точки в квадрате не могут быть разрушены какой-либо аффинной функцией, поскольку никакая аффинная функция не может быть положительной на двух диагонально противоположных вершинах и отрицательной на оставшихся двух. Таким образом, размер VC равен , поэтому он конечен. Это следует из приведенной выше характеристики классов, изучаемых с помощью PAC, которые могут быть изучены с помощью PAC и, соответственно, могут быть изучены.
Границы сложности выборки
Допустим, есть класс бинарных функций (функций до ). Затем можно изучить -PAC с помощью выборки размера:
где это измерение ВК из . Более того, любой алгоритм -PAC-обучения должен иметь сложность выборки:
Таким образом, сложность выборки является линейной функцией размера VC пространства гипотез.
Предположим , это класс функций с действительным знаком с диапазоном в . Затем можно изучить -PAC с помощью выборки размера:
где это Поллард псевдоразмерности из .
Другие настройки
В дополнение к настройке контролируемого обучения сложность выборки актуальна для задач частично контролируемого обучения, включая активное обучение , когда алгоритм может запрашивать метки для специально выбранных входных данных, чтобы снизить стоимость получения множества меток. Концепция сложности выборки также проявляется в обучении с подкреплением , онлайн-обучении и неконтролируемых алгоритмах, например, для изучения словаря .
Эффективность в робототехнике
Высокая сложность выборки означает, что для выполнения поиска по дереву Монте-Карло требуется много вычислений . Это эквивалентно моделированному поиску методом грубой силы в пространстве состояний. Напротив, высокоэффективный алгоритм имеет низкую сложность выборки. Возможные методы уменьшения сложности выборки - это метрическое обучение и
обучение с подкреплением на основе моделей.
использованная литература