Нейронная сеть с прямой связью - Feedforward neural network

В сети прямого распространения информация всегда движется в одном направлении; он никогда не идет вспять.

Упреждения нейронной сетью является искусственной нейронной сетью , в котором соединение между узлами делать не образует цикл. Таким образом, он отличается от своего потомка: рекуррентных нейронных сетей .

Нейронная сеть с прямой связью была первым и самым простым типом созданной искусственной нейронной сети. В этой сети информация движется только в одном направлении - вперед - от входных узлов через скрытые узлы (если есть) и к выходным узлам. В сети нет циклов или петель.

Однослойный персептрон

Простейший вид нейронной сети - это однослойная сеть персептронов , которая состоит из одного слоя выходных узлов; входы подаются непосредственно на выходы через серию весов. Сумма произведений весов и входных данных вычисляется в каждом узле, и если значение превышает некоторый порог (обычно 0), нейрон срабатывает и принимает активированное значение (обычно 1); в противном случае принимает деактивированное значение (обычно -1). Нейроны с такой функцией активации также называют искусственными нейронами или линейными пороговыми единицами . В литературе термин перцептрон часто относится к сетям, состоящим только из одного из этих элементов. Подобный нейрон был описан Уорреном Маккалоком и Уолтером Питтсом в 1940-х годах.

Персептрон может быть создан с использованием любых значений для активированного и деактивированного состояний, если пороговое значение находится между ними.

Персептроны можно обучить с помощью простого алгоритма обучения, который обычно называют правилом дельты . Он вычисляет ошибки между рассчитанными выходными и выборочными выходными данными и использует их для корректировки весов, тем самым реализуя форму градиентного спуска .

Однослойные перцептроны способны изучать только линейно разделяемые паттерны; в 1969 году в известной монографии под названием Перцептроны , Марвины Мински и Пейперт показали , что это было невозможно для однослойного персептрона сети , чтобы узнать об функции XOR (тем не менее, было известно , что многослойные персептроны способны производить любую возможную булеву функцию ).

Хотя единственная пороговая единица весьма ограничена в своей вычислительной мощности, было показано, что сети параллельных пороговых единиц могут аппроксимировать любую непрерывную функцию из компактного интервала действительных чисел в интервал [-1,1]. Этот результат можно найти в трудах Питера Ауэра, Харальда Бургштейнера и Вольфганга Маасса «Правило обучения для очень простых универсальных аппроксиматоров, состоящих из одного слоя перцептронов».

Однослойная нейронная сеть может вычислять непрерывный выходной сигнал вместо пошаговой функции . Распространенным выбором является так называемая логистическая функция :

При таком выборе одноуровневая сеть идентична модели логистической регрессии , широко используемой в статистическом моделировании . Логистическая функция является одной из семейства функций , называемых сигмоид , потому что их S-образной графика напоминает конечные буквы нижнего регистра греческого письма Sigma . Он имеет непрерывную производную, что позволяет использовать его при обратном распространении . Эта функция также является предпочтительной, потому что ее производная легко вычисляется:

.

(Тот факт, что удовлетворяет приведенному выше дифференциальному уравнению, легко показать, применив цепное правило .)

Если функция активации однослойной нейронной сети задана по модулю 1, то эта сеть может решить проблему XOR с одним нейроном.

Многослойный персептрон

Двухслойная нейронная сеть, способная вычислять XOR. Числа в нейронах представляют собой явный порог каждого нейрона (который может быть разложен так, чтобы все нейроны имели одинаковый порог, обычно 1). Цифры, отмеченные стрелками, представляют вес входных данных. Эта сеть предполагает, что если порог не достигнут, выводится ноль (не -1). Обратите внимание, что нижний уровень входных данных не всегда считается реальным уровнем нейронной сети.

Этот класс сетей состоит из нескольких уровней вычислительных блоков, обычно связанных между собой прямым способом. Каждый нейрон в одном слое имеет направленные связи с нейронами следующего слоя. Во многих приложениях устройства этих сетей применяют сигмовидную функцию в качестве функции активации.

Универсальная теорема аппроксимации для нейронных сетей состояний , что любая непрерывная функция , которая отображает интервалы действительных чисел в какой - то выходной интервал действительных чисел может быть сколь угодно точно приблизить с помощью многослойного персептрона с только один скрытый слой. Этот результат справедлив для широкого диапазона функций активации, например, для сигмоидальных функций.

В многоуровневых сетях используются различные методы обучения, наиболее популярными из которых является обратное распространение . Здесь выходные значения сравниваются с правильным ответом для вычисления значения некоторой предопределенной функции ошибок. Затем с помощью различных методов ошибка возвращается по сети. Используя эту информацию, алгоритм корректирует веса каждого соединения, чтобы уменьшить значение функции ошибок на некоторую небольшую величину. После повторения этого процесса в течение достаточно большого количества циклов обучения сеть обычно сходится к некоторому состоянию, в котором ошибка вычислений мала. В этом случае можно сказать, что сеть усвоила определенную целевую функцию. Для правильной настройки весов применяется общий метод нелинейной оптимизации, который называется градиентным спуском . Для этого сеть вычисляет производную функции ошибок по весам сети и изменяет веса таким образом, чтобы ошибка уменьшалась (таким образом, снижаясь на поверхности функции ошибок). По этой причине обратное распространение может применяться только в сетях с дифференцируемыми функциями активации.

В общем, проблема обучения сети хорошей работе, даже на выборках, которые не использовались в качестве обучающих, является довольно тонкой проблемой, требующей дополнительных методов. Это особенно важно для случаев, когда доступно очень ограниченное количество обучающих выборок. Опасность состоит в том, что сеть не соответствует обучающим данным и не может уловить истинный статистический процесс, генерирующий данные. Теория вычислительного обучения занимается обучением классификаторов на ограниченном количестве данных. В контексте нейронных сетей простая эвристика , называемая ранней остановкой , часто гарантирует, что сеть будет хорошо обобщаться на примеры, не входящие в обучающий набор.

Другими типичными проблемами алгоритма обратного распространения являются скорость сходимости и возможность попадания в локальный минимум функции ошибок. Сегодня существуют практические методы, которые делают обратное распространение в многослойных персептронах предпочтительным инструментом для многих задач машинного обучения .

Можно также использовать серию независимых нейронных сетей, модерируемых каким-то посредником, подобное поведение происходит в мозгу. Эти нейроны могут работать по отдельности и обрабатывать большую задачу, а результаты могут быть окончательно объединены.

Другие сети прямого распространения

В более общем смысле, любой направленный ациклический граф может использоваться для сети прямого распространения, при этом некоторые узлы (без родителей) обозначены как входы, а некоторые узлы (без дочерних) обозначены как выходы. Их можно рассматривать как многослойные сети, в которых некоторые края пропускают слои, либо считая слои назад от выходов или вперед от входов. Могут использоваться различные функции активации, и могут быть отношения между весами, как в сверточных нейронных сетях .

Примеры других сетей с прямой связью включают сети радиальных базисных функций , которые используют другую функцию активации.

Иногда многослойный перцептрон используется для обозначения любой нейронной сети прямого распространения, в то время как в других случаях он ограничивается конкретными (например, с конкретными функциями активации, или с полностью связанными слоями, или обученным алгоритмом перцептрона).

Смотрите также

использованная литература

внешние ссылки