Катастрофическое вмешательство - Catastrophic interference

Катастрофическое вмешательство , также известное как катастрофическое забывание , - это тенденция искусственной нейронной сети полностью и внезапно забывать ранее изученную информацию при изучении новой информации. Нейронные сети являются важной частью сетевого подхода и коннекционистского подхода к когнитивной науке.. С помощью этих сетей человеческие способности, такие как память и обучение, можно смоделировать с помощью компьютерного моделирования. Катастрофические помехи - важная проблема, которую следует учитывать при создании коннекционистских моделей памяти. Первоначально он был доведен до сведения научного сообщества исследованиями Макклоски и Коэна (1989) и Рэтклиффа (1990). Это радикальное проявление дилеммы «чувствительность-стабильность» или дилеммы «стабильность-пластичность». В частности, эти проблемы относятся к задаче создания искусственной нейронной сети, которая чувствительна к новой информации, но не нарушается ею. Таблицы поиска и сети коннекционистов лежат на противоположных сторонах спектра пластичности устойчивости. Первый остается полностью стабильным при наличии новой информации, но не имеет возможностиобобщать , т. е. вывести общие принципы, из новых данных. С другой стороны, коннекционистские сети, такие как стандартная сеть обратного распространения, могут обобщаться на невидимые входы, но они очень чувствительны к новой информации. Модели обратного распространения можно считать хорошими моделями человеческой памяти, поскольку они отражают человеческую способность к обобщениям, но эти сети часто демонстрируют меньшую стабильность, чем человеческая память. Примечательно, что эти сети обратного распространения подвержены катастрофическим помехам. Это проблема при моделировании человеческой памяти, потому что, в отличие от этих сетей, люди обычно не проявляют катастрофического забывания.

История катастрофического вмешательства

Термин «катастрофическая интерференция» был первоначально введен Макклоски и Коэном (1989), но также был привлечен вниманием научного сообщества в результате исследования Ратклиффа (1990).

Проблема последовательного обучения : Макклоски и Коэн (1989)

Макклоски и Коэн (1989) отметили проблему катастрофических помех во время двух разных экспериментов с моделированием нейронной сети с обратным распространением.

  • Эксперимент 1. Изучение фактов сложения единиц и двоек

В своем первом эксперименте они обучили стандартную нейронную сеть обратного распространения на единственном обучающем наборе, состоящем из 17 задач с однозначными числами (т. Е. От 1 + 1 до 9 + 1 и от 1 + 2 до 1 + 9) до тех пор, пока сеть не сможет представлять и правильно ответить на все из них. Ошибка между фактическим и желаемым выходными данными неуклонно снижалась во время тренировок, что отражало то, что сеть научилась лучше представлять целевые выходные данные в ходе испытаний. Затем они обучили сеть на единственном обучающем наборе, состоящем из 17 задач с однозначными числами (т. Е. От 2 + 1 до 2 + 9 и от 1 + 2 до 9 + 2), пока сеть не сможет представить, правильно реагировать на все из них. их. Они отметили, что их процедура была похожа на то, как ребенок узнает свои факты сложения. После каждого эксперимента по изучению двух фактов сеть проверялась на знание фактов сложения единиц и двоек. Как и факты об одних, сеть легко узнала о двух фактах. Тем не менее, Макклоски и Коэн отметили, что сеть больше не могла правильно отвечать на задачи сложения единиц даже после одного пробного обучения задачам сложения двоек. Шаблон вывода, создаваемый в ответ на единичные факты, часто напоминал шаблон вывода для неправильного числа больше, чем шаблон вывода для правильного числа. Это считается серьезной ошибкой. Более того, задачи 2 + 1 и 2 + 1, которые были включены в обе обучающие группы, даже продемонстрировали резкое нарушение во время первых испытаний по изучению двух фактов.

  • Эксперимент 2: Репликация исследования Барнса и Андервуда (1959). В своей второй коннекционистской модели Макклоски и Коэн попытались воспроизвести исследование ретроактивного вмешательства у людей, проведенное Барнсом и Андервудом (1959). Они обучили модель спискам AB и AC и использовали шаблон контекста во входном векторе (шаблон ввода), чтобы различать списки. В частности, сеть была обучена реагировать правильным ответом B, когда показан стимул A и шаблон контекста AB, и отвечать правильным ответом C, когда показан стимул A и шаблон контекста AC. Когда модель обучалась одновременно на элементах AB и AC, тогда сеть легко узнала все ассоциации правильно. При последовательном обучении сначала обучался список AB, а затем список AC. После каждого представления списка AC производительность измерялась как для списков AB, так и для списков AC. Они обнаружили, что количество тренировок в списке AC в исследовании Барнса и Андервуда, которое приводит к 50% правильных ответов, приводит к почти 0% правильных ответов через сеть обратного распространения. Более того, они обнаружили, что сеть, как правило, показывала ответы, похожие на шаблон ответа C, когда сеть предлагала предоставить шаблон ответа B. Это указывало на то, что список AC, по-видимому, перезаписал список AB. Это можно сравнить с заучиванием слова «собака», с последующим изучением слова «стул» и последующим обнаружением, что вы не можете хорошо распознать слово «кошка», а вместо этого подумайте о слове «стул», когда вам предложат слово «собака».

Макклоски и Коэн пытались уменьшить помехи с помощью ряда манипуляций, включая изменение количества скрытых единиц, изменение значения параметра скорости обучения, перетренированность в списке AB, замораживание определенных весов соединений, изменение целевых значений 0 и 1 вместо 0,1 и 0,9 . Однако ни одна из этих манипуляций не уменьшила в достаточной степени катастрофические помехи, создаваемые сетями.

В целом Макклоски и Коэн (1989) пришли к выводу, что:

  • по крайней мере, некоторое вмешательство будет происходить всякий раз, когда новое обучение изменяет задействованные веса, представляющие
  • чем больше объем нового обучения, тем сильнее разрушаются старые знания
  • интерференция была катастрофической в ​​сетях обратного распространения, когда обучение было последовательным, но не одновременным

Ограничения, налагаемые обучением и забыванием функций : Рэтклифф (1990)

Рэтклифф (1990) использовал несколько наборов моделей обратного распространения, применяемых к стандартным процедурам распознавания памяти, в которых элементы последовательно обучались. Изучив модели производительности распознавания, он обнаружил две основные проблемы:

  • Хорошо усвоенная информация была катастрофически забыта, поскольку новая информация была изучена как в малых, так и в больших сетях обратного распространения.

Даже одно обучающее испытание с использованием новой информации привело к значительной потере старой информации, что соответствует выводам Макклоски и Коэна (1989). Ратклифф также обнаружил, что результирующие выходные данные часто представляют собой смесь предыдущего и нового входных данных. В более крупных сетях предметы, изученные в группах (например, AB, затем CD), были более устойчивы к забыванию, чем предметы, изученные по отдельности (например, A, затем B, затем C ...). Однако забвение предметов, изученных в группах, по-прежнему было значительным. Добавление новых скрытых блоков в сеть не уменьшило помех.

  • Дискриминация между изучаемыми предметами и ранее невидимыми предметами уменьшалась по мере того, как сеть узнавала больше.

Этот вывод противоречит исследованиям человеческой памяти, которые показали, что дискриминация увеличивается с обучением. Рэтклифф попытался решить эту проблему, добавив «узлы ответа», которые выборочно реагировали бы на старые и новые входные данные. Однако этот метод не работал, поскольку эти ответные узлы становились активными для всех входов. Модель, в которой использовался шаблон контекста, также не смогла увеличить различие между новыми и старыми элементами.

Предлагаемые решения

Основная причина катастрофических помех, по-видимому, заключается в наложении представлений на скрытом слое распределенных нейронных сетей. В распределенном представлении каждый вход имеет тенденцию создавать изменения в весах многих узлов. Катастрофическое забывание происходит потому, что при изменении многих весов, в которых «хранятся знания», маловероятно, что прежние знания останутся нетронутыми. Во время последовательного обучения входные данные смешиваются, при этом новые входные данные накладываются поверх старых. Другой способ концептуализировать это - визуализировать обучение как движение через пространство с весами. Это пространство весов можно сравнить с пространственным представлением всех возможных комбинаций весов, которыми может обладать сеть. Когда сеть впервые учится представлять набор шаблонов, она находит точку в весовом пространстве, которая позволяет ей распознавать все эти шаблоны. Однако, когда сеть затем изучает новый набор паттернов, она переместится в то место в пространстве весов, для которого единственной заботой является распознавание новых паттернов. Чтобы распознать оба набора паттернов, сеть должна найти место в пространстве весов, подходящее для распознавания как новых, так и старых паттернов.

Ниже приведен ряд методов, которые имеют эмпирическую поддержку в успешном снижении катастрофических помех в нейронных сетях с обратным распространением сигналов:

Ортогональность

Многие из ранних методов уменьшения репрезентативного перекрытия включали создание ортогональных друг другу входных векторов или шаблонов активации скрытых единиц . Левандовски и Ли (1995) отметили, что интерференция между последовательно изученными шаблонами сводится к минимуму, если входные векторы ортогональны друг другу. Входные векторы называются ортогональными друг другу, если сумма попарного произведения их элементов по двум векторам равна нулю. Например, шаблоны [0,0,1,0] и [0,1,0,0] называются ортогональными, потому что (0 × 0 + 0 × 1 + 1 × 0 + 0 × 0) = 0. Один из методов, который может создавать ортогональные представления на скрытых слоях, включает биполярное кодирование признаков (т. Е. Кодирование с использованием -1 и 1, а не 0 и 1). Ортогональные узоры, как правило, создают меньше помех друг другу. Однако не все проблемы обучения могут быть представлены с использованием этих типов векторов, и некоторые исследования сообщают, что степень интерференции все еще проблематична для ортогональных векторов.

Техника заточки узлов

Согласно French (1991), катастрофические помехи возникают в сетях с прямой связью и обратным распространением из-за взаимодействия активаций узлов или перекрытия активаций, которое происходит в распределенных представлениях на скрытом уровне. Нейронные сети, которые используют очень локализованные представления, не показывают катастрофических помех из-за отсутствия перекрытия на скрытом уровне. Поэтому Френч предположил, что уменьшение значения перекрытия активации на скрытом уровне уменьшит катастрофические помехи в распределенных сетях. В частности, он предположил, что это может быть сделано путем изменения распределенных представлений на скрытом уровне на «полураспределенные» представления. «Полураспределенное» представление имеет меньшее количество активных скрытых узлов и / или более низкое значение активации для этих узлов для каждого представления, что приведет к меньшему перекрытию представлений различных входных данных на скрытом уровне. Френч рекомендовал, чтобы это можно было сделать с помощью «повышения резкости активации», техники, которая немного увеличивает активацию определенного количества наиболее активных узлов в скрытом слое, немного снижает активацию всех других узлов, а затем изменяет входное значение. - веса скрытых слоев для отражения этих изменений активации (аналогично обратному распространению ошибок).

Правило новизны

Кортге (1990) предложил правило обучения для обучения нейронных сетей, называемое «правилом новизны», чтобы помочь уменьшить катастрофические помехи. Как следует из названия, это правило помогает нейронной сети изучать только те компоненты нового входа, которые отличаются от старого входа. Следовательно, правило новизны изменяет только веса, которые ранее не были предназначены для хранения информации, тем самым уменьшая перекрытие представлений в скрытых единицах. Чтобы применить правило новизны, во время обучения шаблон ввода заменяется вектором новизны, который представляет компоненты, которые различаются. Когда правило новизны используется в стандартной сети обратного распространения, отсутствует или уменьшается забвение старых элементов, когда новые элементы представлены последовательно. Однако ограничение состоит в том, что это правило можно использовать только с автокодировщиком или с автоассоциативными сетями, в которых целевой отклик для выходного слоя идентичен входному шаблону.

Предтренировочные сети

Макрей и Хетерингтон (1993) утверждали, что люди, в отличие от большинства нейронных сетей, не берут на себя новые учебные задачи со случайным набором весов. Скорее, люди склонны привносить в задачу обширные предварительные знания, и это помогает избежать проблемы вмешательства. Они показали, что, когда сеть предварительно обучается на случайной выборке данных перед запуском задачи последовательного обучения, эти предварительные знания естественным образом ограничивают способ включения новой информации. Это могло произойти, потому что случайная выборка данных из домена, который имеет высокую степень внутренней структуры, такой как английский язык, обучение будет фиксировать закономерности или повторяющиеся шаблоны, обнаруженные в этом домене. Поскольку домен основан на закономерностях, новый изученный элемент будет иметь тенденцию быть похожим на ранее полученную информацию, что позволит сети включать новые данные с небольшим вмешательством в существующие данные. В частности, входной вектор, который следует тому же шаблону закономерностей, что и ранее обученные данные, не должен вызывать кардинально другой шаблон активации на скрытом уровне или кардинально изменять веса.

Репетиция

Робинс (1995) описал, что катастрофическое забывание можно предотвратить с помощью репетиционных механизмов. Это означает, что при добавлении новой информации нейронная сеть переобучается на некоторой ранее изученной информации. Однако, как правило, ранее изученная информация может быть недоступна для такого переподготовки. Решением для этого является «псевдо-репетиция», при которой сеть переобучается не на фактических предыдущих данных, а на их представлениях. На этом общем механизме основано несколько методов.

Рисунок 2: Архитектура псевдорекуррентной сети

Псевдорекуррентные сети

French (1997) предложил псевдорекуррентную сеть обратного распространения (см. Рисунок 2). В этой модели сеть разделена на две функционально различные, но взаимодействующие подсети. Эта модель вдохновлена ​​биологией и основана на исследованиях McClelland et al. (1995) McClelland и его коллеги предположили, что гиппокамп и неокортекс действуют как отдельные, но взаимодополняющие системы памяти, причем гиппокамп предназначен для хранения краткосрочной памяти, а неокортекс - для хранения долгосрочной памяти . Информация, изначально хранящаяся в гиппокампе, может быть «перенесена» в неокортекс посредством реактивации или воспроизведения. В псевдорекуррентной сети одна из подсетей действует как область ранней обработки, похожая на гиппокамп, и функционирует для изучения новых шаблонов ввода. Другая подсеть действует как область окончательного хранения, похожая на неокортекс. Однако, в отличие от McClelland et al. (1995), область окончательного хранения отправляет внутренне сгенерированное представление обратно в область ранней обработки. Это создает повторяющуюся сеть. Френч предположил, что это чередование старых представлений с новыми представлениями является единственным способом уменьшить радикальное забывание. Поскольку у мозга, скорее всего, не будет доступа к исходным входным паттернам, паттерны, которые будут возвращены в неокортекс, будут внутренне сгенерированными представлениями, называемыми псевдо-паттернами . Эти псевдо-шаблоны являются приближениями к предыдущим входным данным, и они могут чередоваться с изучением новых входных данных.

Самообновляющаяся память

Вдохновленный и независимо от Анс и Руссет (1997) также предложили двухсетевую искусственную нейронную архитектуру с самообновлением памяти, которая преодолевает катастрофические помехи, когда задачи последовательного обучения выполняются в распределенных сетях, обученных методом обратного распространения. Принцип состоит в том, чтобы изучать новые внешние паттерны одновременно с внутренне сгенерированными псевдонимами или «псевдо-воспоминаниями», которые отражают ранее изученную информацию. Основное отличие этой модели от моделей, использующих классический псевдослучайный анализ в многослойных сетях с прямой связью, - это реверберирующий процесс, который используется для генерации псевдопаттернов. После ряда повторных инъекций активности из одного случайного начального числа этот процесс имеет тенденцию переходить к нелинейным сетевым аттракторам , которые больше подходят для оптимального захвата глубокой структуры знаний, распределенных в пределах весов соединений, чем одиночный проход активности с прямой связью, используемый в псевдо-логике. -репетиция. Процедура самообновления памяти оказалась очень эффективной в процессах передачи и последовательном обучении временных последовательностей паттернов без катастрофического забывания.

Генеративное воспроизведение

В последние годы псевдорепетиции снова приобрели популярность благодаря прогрессу в возможностях глубинных генеративных моделей . Когда такие глубокие генеративные модели используются для генерации «псевдоданных», которые нужно репетировать, этот метод обычно называют генеративным воспроизведением. Такое генеративное воспроизведение может эффективно предотвратить катастрофическое забывание, особенно когда воспроизведение выполняется в скрытых слоях, а не на уровне ввода.

Скрытое обучение

Скрытое обучение - это метод, используемый Гутштейном и Стампом (2015) для смягчения катастрофических помех за счет использования трансферного обучения . Этот подход пытается найти оптимальные кодировки для любых новых классов, которые должны быть изучены, так что они с наименьшей вероятностью будут катастрофически мешать существующим ответам. Учитывая сеть, которая научилась различать один набор классов с помощью выходных кодов с исправлением ошибок (ECOC) (в отличие от 1 горячих кодов ), оптимальные кодировки для новых классов выбираются путем наблюдения за средними откликами сети на них. Поскольку эти средние ответы возникали при изучении исходного набора классов без какого-либо воздействия на новые классы , они называются «латентно изученными кодировками». Эта терминология заимствована из концепции скрытого обучения , введенной Толменом в 1930 году. Фактически, этот метод использует переносное обучение, чтобы избежать катастрофических помех, делая ответы сети на новые классы как можно более согласованными с существующими ответами на уже изученные классы.

Упругое уплотнение веса

Киркпатрик и др. (2017) предложили консолидацию упругого веса (EWC), метод последовательного обучения единственной искусственной нейронной сети для решения нескольких задач. Этот метод предполагает, что некоторые веса обученной нейронной сети более важны для ранее изученных задач, чем другие. Во время обучения нейронной сети новой задаче изменения весов сети становятся менее вероятными, чем больше их важность. Для оценки важности сетевых весов EWC использует вероятностные механизмы, в частности информационную матрицу Фишера, но это можно сделать и другими способами.

использованная литература