Оперантного кондиционирования - Operant conditioning

Оперантного кондиционирования Вымирание
Подкрепление
Повышение поведения
Наказание
Снижение поведения
Положительное подкрепление
Добавьте аппетитный стимул
после правильного поведения
Отрицательное подкрепление Положительное наказание
Добавить вредный стимул
вслед за поведением
Отрицательное наказание
Устранение аппетитного стимула
вслед за поведением
Побег
Устранение вредных стимулов при
правильном поведении
Активное избегание
Поведение избегает вредных раздражителей

Оперантное обусловливание (также называемое инструментальным обусловливанием ) - это тип процесса ассоциативного обучения, посредством которого сила поведения изменяется путем подкрепления или наказания. Это также процедура, которая используется для такого обучения.

Хотя как оперантное, так и классическое обусловливание связаны с поведением, контролируемым стимулами окружающей среды, они различаются по своей природе. При оперантном обусловливании поведение контролируется внешними стимулами. Например, ребенок может научиться открывать коробку, чтобы положить внутрь сладости, или научиться не прикасаться к горячей плите; с оперантной точки зрения ящик и печь являются «различительными раздражителями». Оперантное поведение называется «добровольным». Ответы находятся под контролем организма и являются операторами. Например, ребенок может оказаться перед выбором: открыть коробку или погладить щенка.

Напротив, классическая обусловленность включает непроизвольное поведение, основанное на сочетании стимулов с биологически значимыми событиями. Ответы находятся под контролем некоторых стимулов, потому что они являются рефлексами, автоматически вызываемыми соответствующими стимулами. Например, вид сладостей может вызвать у ребенка слюноотделение, или звук хлопка двери может сигнализировать рассерженному родителю, заставляя ребенка дрожать. Слюноотделение и дрожь не действуют; они не подкрепляются своими последствиями, и их не «выбирают» добровольно.

Однако оба вида обучения могут влиять на поведение. Классически обусловленные стимулы - например, изображение конфет на коробке - могут усилить оперантную обусловленность, побуждая ребенка подойти и открыть коробку. Исследования показали, что это полезное явление в тех случаях, когда оперантное поведение подвержено ошибкам.

В исследовании обучения животных в 20-м веке доминировал анализ этих двух видов обучения, и они по-прежнему составляют основу анализа поведения. Они также применялись для изучения социальной психологии , помогая прояснить определенные явления, такие как эффект ложного консенсуса .

Историческая справка

Закон действия Торндайка

Оперантное обусловливание, иногда называемое инструментальным обучением , впервые было тщательно изучено Эдвардом Л. Торндайком (1874–1949), который наблюдал за поведением кошек, пытающихся вырваться из самодельных коробок-головоломок. Кошка могла выбраться из ящика, просто потянув за шнур или толкнув шест, но когда ее сначала сдерживали, кошкам требовалось много времени, чтобы выбраться. При повторных испытаниях неэффективные ответы возникали реже, а успешные - чаще, поэтому кошки убегали все быстрее и быстрее. Торндайк обобщил это открытие в своем законе эффекта , который гласит, что поведение, сопровождаемое удовлетворительными последствиями, имеет тенденцию повторяться, а те, которые приводят к неприятным последствиям, с меньшей вероятностью будут повторяться. Короче говоря, некоторые последствия усиливают поведение, а некоторые - ослабляют . Построив график зависимости времени побега от номера испытания, Торндайк с помощью этой процедуры получил первые известные кривые обучения животных .

Похоже, что люди учатся многим простым образцам поведения посредством процесса, изученного Торндайком, который теперь называется оперантным обусловливанием. То есть ответы сохраняются, когда они приводят к успешному результату, и отбрасываются, когда они этого не делают, или когда они вызывают отвращение. Обычно это происходит без планирования какого-либо «учителя», но оперантное обусловливание использовалось родителями в обучении своих детей на протяжении тысяч лет.

Б.Ф. Скиннер

Б. Ф. Скиннер на факультете психологии Гарварда, около 1950 г.

Б. Ф. Скиннера (1904–1990) называют отцом оперантного обусловливания, и его работы часто цитируются в связи с этой темой. Его книга 1938 года «Поведение организмов: экспериментальный анализ» положила начало его пожизненному изучению оперантного обусловливания и его применения к поведению человека и животных. Следуя идеям Эрнста Маха , Скиннер отверг ссылку Торндайка на ненаблюдаемые психические состояния, такие как удовлетворение, построив свой анализ на наблюдаемом поведении и его столь же наблюдаемых последствиях.

Скиннер считал, что классическая обусловленность слишком упрощена, чтобы ее можно было использовать для описания чего-то столь сложного, как человеческое поведение. По его мнению, оперантное кондиционирование лучше описывает человеческое поведение, поскольку оно исследует причины и следствия намеренного поведения.

Чтобы реализовать свой эмпирический подход, Скиннер изобрел камеру оперантного кондиционирования , или « ящик Скиннера », в котором такие предметы, как голуби и крысы, были изолированы и могли подвергаться тщательно контролируемым раздражителям. В отличие от коробки-головоломки Торндайка, такая компоновка позволяла испытуемому дать один или два простых повторяемых ответа, и частота таких ответов стала основным поведенческим критерием Скиннера. Другое изобретение, накопительный регистратор, дает графическую запись, на основе которой можно оценить эти показатели отклика. Эти записи были первичными данными, которые Скиннер и его коллеги использовали для изучения влияния различных схем подкрепления на скорость реакции. График подкрепления может быть определен как «любая процедура, которая доставляет подкрепление организму в соответствии с каким-то четко определенным правилом». Эффекты расписания стали, в свою очередь, основными выводами, на основе которых Скиннер разработал свою концепцию оперантного обусловливания. Он также опирался на многие менее формальные наблюдения за поведением людей и животных.

Многие работы Скиннера посвящены применению оперантной обусловленности к человеческому поведению. В 1948 году он опубликовал « Уолден-два» , вымышленный рассказ о мирном, счастливом и продуктивном сообществе, организованном на основе его принципов кондиционирования. В 1957 году Скиннер опубликовал « Вербальное поведение» , который распространил принципы оперантного обусловливания на язык, форму человеческого поведения, которая ранее совершенно иначе анализировалась лингвистами и другими. Скиннер определил новые функциональные отношения, такие как «мандаты» и «такты», чтобы уловить некоторые основы языка, но он не ввел никаких новых принципов, рассматривая вербальное поведение, как любое другое поведение, контролируемое его последствиями, включая реакции аудитории говорящего.

Концепции и процедуры

Истоки оперантного поведения: оперантная изменчивость

Говорят, что оперантное поведение «испускается»; то есть изначально он не вызывается каким-либо конкретным стимулом. Таким образом, можно спросить, почему это вообще происходит. Ответ на этот вопрос подобен ответу Дарвина на вопрос о происхождении «новой» телесной структуры, а именно вариации и отбора. Точно так же поведение человека меняется от момента к моменту, в таких аспектах, как конкретные участвующие движения, величина приложенной силы или время реакции. Вариации, которые приводят к подкреплению, усиливаются, и если подкрепление постоянное, поведение, как правило, остается стабильным. Однако изменчивость поведения сама по себе может быть изменена путем манипулирования определенными переменными.

Изменение оперантного поведения: подкрепление и наказание

Подкрепление и наказание - это основные инструменты, с помощью которых модифицируется оперантное поведение. Эти термины определяются по их влиянию на поведение. Либо может быть положительным, либо отрицательным.

  • Положительное подкрепление и отрицательное подкрепление увеличивают вероятность поведения, которому они следуют, в то время как положительное наказание и отрицательное наказание снижают вероятность поведения, которому они следуют.

Еще одна процедура называется «угасание».

  • Исчезновение происходит, когда ранее подкрепленное поведение больше не подкрепляется ни положительным, ни отрицательным подкреплением. Во время вымирания такое поведение становится менее вероятным. Случайное подкрепление может привести к еще более длительной задержке до угасания поведения из-за фактора обучения, состоящего в том, что для получения подкрепления становится необходим фактор повторения, по сравнению с подкреплением, предоставляемым при каждой возможности перед исчезновением.

Всего существует пять последствий.

  1. Положительное подкрепление происходит тогдакогда поведение (ответ) является полезным или поведение следует другой стимулкоторый является полезным, увеличивая частоту этого поведения. Например, если крыса в ящике Скиннера получает пищу, когда она нажимает на рычаг, скорость ее нажатия возрастает. Эту процедуру обычно называют просто армированием .
  2. Отрицательное подкрепление (также известное как побег) возникает, когда за поведением (реакцией) следует устранение отвращающего стимула, тем самым увеличивая частоту исходного поведения. В эксперименте с ящиком Скиннера неприятным стимулом мог быть непрерывный громкий шум внутри ящика; отрицательное подкрепление произойдет, когда крыса нажмет на рычаг, чтобы выключить шум.
  3. Положительное наказание (также называемое «наказанием условной стимуляцией») происходит, когда за поведением (реакцией) следует отталкивающий стимул. Пример: боль от порки , которая часто приводит к снижению этого поведения. Положительное наказание - термин, сбивающий с толку, поэтому процедуру обычно называют «наказанием».
  4. Отрицательное наказание (штраф) (также называемое «наказанием условным отказом») возникает, когда за поведением (реакцией) следует устранение стимула. Пример: забрать игрушку у ребенка из-за нежелательного поведения ребенка, что приведет к уменьшению нежелательного поведения.
  5. Вымирание происходит, когда ранее подкрепленное поведение (реакция) больше не действует. Пример: крысе сначала дают еду много раз за нажатие на рычаг, пока экспериментатор не перестанет выдавать еду в качестве награды. Крыса обычно нажимала на рычаг реже, а затем останавливалась. Нажатие на рычаг тогда будет сказано, что «погашено».

Важно отметить, что об актерах (например, о крысе) не говорят как о подкреплении, наказании или подавлении; это действия , которые подкрепляются, наказываются или исключаются. Подкрепление, наказание и исчезновение - это не термины, использование которых ограничено лабораторией. Естественно возникающие последствия также могут усиливать, наказывать или подавлять поведение и не всегда планируются или реализуются намеренно.

Графики армирования

Графики армирования - это правила, которые контролируют доставку арматуры. Правила определяют либо время, когда подкрепление должно быть доступно, или количество ответов, которые необходимо сделать, либо и то, и другое. Возможно множество правил, но следующие являются наиболее основными и часто используемыми.

  • График с фиксированным интервалом: подкрепление происходит после первого ответа по истечении фиксированного времени после предыдущего подкрепления. Этот график дает образец ответа «остановка бега»; то есть после тренировки по этому графику организм обычно делает паузу после подкрепления, а затем начинает быстро реагировать по мере приближения времени для следующего подкрепления.
  • График с переменным интервалом: подкрепление происходит после первого ответа по истечении переменного времени с момента предыдущего подкрепления. Этот график обычно дает относительно стабильную скорость реакции, которая зависит от среднего времени между подкреплениями.
  • График с фиксированным соотношением: подкрепление происходит после того, как с момента предыдущего подкрепления было отправлено фиксированное количество ответов. Организм, тренированный по этому графику, обычно делает паузу на некоторое время после подкрепления, а затем реагирует с высокой скоростью. Если требование ответа низкое, паузы может не быть; если потребность в реакции высока, организм может вообще перестать отвечать.
  • График с переменным соотношением: подкрепление происходит после того, как с момента предыдущего подкрепления было отправлено переменное количество ответов. Этот график обычно дает очень высокую и постоянную скорость ответа.
  • Непрерывное подкрепление: подкрепление происходит после каждого ответа. Организмы обычно реагируют настолько быстро, насколько могут, учитывая время, необходимое для получения и потребления подкрепления, до тех пор, пока они не насытятся.

Факторы, влияющие на эффективность подкрепления и наказания

Эффективность подкрепления и наказания можно изменить.

  1. Насыщение / депривация : эффективность положительного или «аппетитного» стимула будет снижена, если человек получил достаточно этого стимула, чтобы удовлетворить свой аппетит. Противоположный эффект произойдет, если индивид лишится этого стимула: тогда эффективность последствий возрастет. Человек с полным желудком не будет чувствовать себя таким мотивированным, как голодный.
  2. Непосредственность : Непосредственное следствие является более эффективным , чем замедленным один. Если дать собаке лакомство для сидения в течение пяти секунд, собака научится быстрее, чем если бы лакомство было дано через тридцать секунд.
  3. Непредвиденные обстоятельства : для максимальной эффективности подкрепление должно происходить последовательно после ответов, а не в другое время. Обучение может быть медленнее, если подкрепление носит прерывистый характер, то есть следует только за некоторыми экземплярами одного и того же ответа. Периодически подкрепляемые ответы обычно гаснут медленнее, чем ответы, которые всегда подкреплялись.
  4. Размер : размер или количество стимула часто влияет на его силу в качестве подкрепления. Люди и животные занимаются анализом затрат и выгод. Если рычажный пресс приносит десять пищевых гранул, нажатию рычага можно научиться быстрее, чем если пресс дает только одну гранулу. Куча четвертей из игрового автомата может заставить игрока тянуть за рычаг дольше одной четверти.

Большинство этих факторов выполняют биологические функции. Например, процесс насыщения помогает организму поддерживать стабильную внутреннюю среду ( гомеостаз ). Например, когда организм лишен сахара, вкус сахара является эффективным усилителем. Когда уровень сахара в крови в организме достигает или превышает оптимальный уровень, вкус сахара становится менее эффективным или даже неприятным.

Формирование

Формирование - это метод кондиционирования, который часто используется при дрессировке животных и в обучении невербальных людей. Это зависит от оперантной изменчивости и подкрепления, как описано выше. Тренер начинает с определения желаемого конечного (или «целевого») поведения. Затем дрессировщик выбирает поведение, которое животное или человек уже издает с некоторой вероятностью. Затем форма этого поведения постепенно изменяется в ходе последовательных испытаний, усиливая поведение, которое все больше и больше приближается к целевому поведению. Когда целевое поведение, наконец, проявляется, оно может быть усилено и поддержано с помощью графика подкрепления.

Безусловное подкрепление

Неконтролируемое подкрепление - это доставка подкрепляющих стимулов независимо от поведения организма. Неконтролируемое подкрепление может использоваться в попытке уменьшить нежелательное целевое поведение путем усиления множества альтернативных ответов при одновременном гашении целевого ответа. Поскольку никакое измеряемое поведение не идентифицируется как подкрепляемое, существует разногласие по поводу использования термина «непредвиденное« подкрепление ».

Стимул-контроль оперантного поведения

Хотя изначально оперантное поведение излучается без идентифицированной ссылки на конкретный стимул, во время оперантного обусловливания операнты попадают под контроль стимулов, которые присутствуют, когда поведение подкрепляется. Такие стимулы называются «различительными стимулами». Результатом является так называемая « трехчленная непредвиденная ситуация ». То есть различающие стимулы создают повод для реакций, которые производят вознаграждение или наказание. Пример: крысу можно обучить нажимать на рычаг, только когда загорается свет; собака устремляется на кухню, когда слышит, как ее мешок с едой дребезжит; ребенок тянется за конфетой, когда видит ее на столе.

Дискриминация, обобщение и контекст

Большая часть поведения находится под контролем стимулов. Можно выделить несколько аспектов этого:

  • Дискриминация обычно возникает, когда реакция усиливается только при наличии определенного стимула. Например, голубя можно кормить за то, что он клюет на красный свет, а не на зеленый; как следствие, он клюет красный и перестает клевать зеленый. Было изучено множество сложных комбинаций раздражителей и других условий; например, организм может получать подкрепление по интервальному графику при наличии одного стимула и по графику соотношения при наличии другого.
  • Обобщение - это тенденция реагировать на раздражители, похожие на ранее обученный различительный раздражитель. Например, обученный клевать «красный» голубь может также клевать «розовый», хотя обычно менее сильно.
  • Контекст относится к стимулам, которые постоянно присутствуют в ситуации, например, к стенам, столам, стульям и т. Д. В комнате или внутри камеры оперантного кондиционирования. Контекстные стимулы могут управлять поведением так же, как и дискриминационные стимулы, хотя обычно они более слабые. Поведение, усвоенное в одном контексте, может отсутствовать или изменяться в другом. Это может вызвать трудности для поведенческой терапии, поскольку поведение, усвоенное в терапевтических условиях, может не проявиться в других ситуациях.

Поведенческие последовательности: условное подкрепление и цепочка

Большую часть поведения нелегко описать в терминах индивидуальных реакций, подкрепляемых один за другим. Объем оперантного анализа расширяется за счет идеи поведенческих цепочек, которые представляют собой последовательности ответов, связанных вместе трехчленными случайностями, определенными выше. Цепочка основана на экспериментально продемонстрированном факте, что различительный стимул не только создает повод для последующего поведения, но также может усилить поведение, которое ему предшествует. То есть различительный раздражитель также является «условным подкреплением». Например, свет, который задает повод для нажатия рычага, может использоваться для усиления «поворота» в присутствии шума. В результате получается последовательность «шум - разворот - свет - нажатие рычага - еда». Можно построить гораздо более длинные цепочки, добавив больше стимулов и ответов.

Побег и избегание

При обучении избеганию поведение прекращает действие (отталкивающего) стимула. Например, защита глаз от солнечного света прекращает (отталкивающую) стимуляцию яркого света в глазах. (Это пример негативного подкрепления, определенного выше.) Поведение, которое поддерживается за счет предотвращения стимула, называется «избеганием», как, например, надевание солнцезащитных очков перед выходом на улицу. Поведение избегания порождает так называемый «парадокс избегания», поскольку можно спросить, как отсутствие стимула может служить подкреплением? Этот вопрос решается несколькими теориями избегания (см. Ниже).

Обычно используются два типа экспериментальных настроек: дискриминированное обучение и обучение избеганию свободного оперантного поведения.

Дискриминационное обучение избеганию

Эксперимент дискриминированного избегания включает в себя серию испытаний, в которых за нейтральным стимулом, таким как свет, следует отталкивающий стимул, такой как шок. После появления нейтрального стимула оперантная реакция, такая как нажатие на рычаг, предотвращает или прекращает отвращение к стимулу. В ранних испытаниях субъект не реагирует до тех пор, пока не сработает отталкивающий стимул, поэтому эти ранние испытания называются испытаниями «бегства». По мере обучения субъект начинает реагировать на нейтральный стимул и, таким образом, предотвращает возникновение отталкивающего стимула. Такие испытания называются «испытаниями избегания». Говорят, что этот эксперимент включает классическое обусловливание, потому что нейтральный CS (условный стимул) сочетается с отталкивающим US (безусловный стимул); эта идея лежит в основе двухфакторной теории обучения избеганию, описанной ниже.

Обучение избеганию свободных оперантов

При свободном оперантном избегании субъект периодически получает отвращающий стимул (часто электрический шок), если не происходит оперантный ответ; ответ задерживает начало шока. В этой ситуации, в отличие от дискриминированного избегания, никакой предшествующий стимул не сигнализирует о шоке. Два важных временных интервала определяют скорость обучения избеганию. Это первый интервал SS (шок-шок). Это время между последовательными ударами при отсутствии реакции. Второй интервал - это интервал RS (ответ-шок). Это определяет время, на которое оперантный ответ задерживает начало следующего разряда. Обратите внимание, что каждый раз, когда субъект выполняет оперантный ответ, интервал RS без шока начинается заново.

Двухпроцессная теория избегания

Эта теория была первоначально предложена для объяснения различенного обучения избеганию, при котором организм учится избегать отталкивающего стимула, уклоняясь от сигнала для этого стимула. Здесь задействованы два процесса: классическое кондиционирование сигнала с последующим оперантным условием реакции выхода:

а) Классическая обусловленность страха. Первоначально организм испытывает сочетание CS с аверсивным УЗИ. Теория предполагает, что эта пара создает ассоциацию между CS и США посредством классической обусловленности, и из-за отталкивающей природы США CS вызывает условную эмоциональную реакцию (CER) - «страх». б) Усиление оперантной реакции уменьшением страха. В результате первого процесса CS теперь сигнализирует о страхе; эта неприятная эмоциональная реакция служит для мотивации оперантных ответов, а ответы, завершающие CS, подкрепляются прекращением страха. Обратите внимание, что в теории не говорится, что организм «избегает» США в смысле его ожидания, а скорее, что организм «избегает» отвращающего внутреннего состояния, вызванного CS. Некоторые экспериментальные данные противоречат теории двух факторов. Например, избегающее поведение часто угасает очень медленно, даже когда первоначальное соединение CS-US больше не повторяется, поэтому можно ожидать, что реакция страха исчезнет (см. Классическое обусловливание ). Кроме того, животные, которые научились избегать, часто демонстрируют мало признаков страха, предполагая, что бегство от страха не является необходимым для сохранения поведения избегания.

Оперантная или "однофакторная" теория

Некоторые теоретики предполагают, что поведение избегания может быть просто особым случаем оперантного поведения, поддерживаемого его последствиями. С этой точки зрения идея «последствий» расширена и включает чувствительность к структуре событий. Таким образом, при избегании следствием реакции является снижение скорости аверсивной стимуляции. Действительно, экспериментальные данные свидетельствуют о том, что «пропущенный шок» воспринимается как стимул и может действовать как подкрепление. Когнитивные теории избегания продвигают эту идею на шаг вперед. Например, крыса начинает «ожидать» шока, если она не нажимает на рычаг, и «не ожидать шока», если нажимает на него, и поведение избегания усиливается, если эти ожидания подтверждаются.

Оперантное накопление

Оперантное накопление относится к наблюдению, что крысы, подкрепленные определенным образом, могут позволить пищевым гранулам накапливаться в пищевом лотке вместо того, чтобы извлекать эти гранулы. В этой процедуре извлечение гранул всегда предусматривало одноминутный период исчезновения, в течение которого не было дополнительных пищевых гранул, но те, которые были накоплены ранее, могли быть потреблены. Это открытие, по-видимому, противоречит обычному выводу о том, что крысы ведут себя импульсивно в ситуациях, когда есть выбор между меньшим пищевым объектом сразу и большим пищевым объектом после некоторой задержки. Смотрите графики армирования .

Нейробиологические корреляты

Первые научные исследования по выявлению нейронов, которые реагировали таким образом, что предполагалось, что они кодируют условные стимулы, были получены в результате работы Махлона деЛонга и Р.Т. Ричардсона. Они показали, что нейроны базального ядра , которые выделяют ацетилхолин во всей коре головного мозга , активируются вскоре после условного стимула или после первичного поощрения, если условного стимула нет. Эти нейроны одинаково активны как для положительных, так и для отрицательных подкреплений, и было показано, что они связаны с нейропластичностью во многих областях коры . Также существуют доказательства того, что дофамин активируется в одно и то же время. Существует множество доказательств того, что дофамин участвует как в подкрепляющем, так и в аверсивном обучении. Дофаминовые пути гораздо более плотно проецируются на области лобной коры . Холинергические проекции, напротив, плотны даже в задних отделах коры, таких как первичная зрительная кора . Исследование пациентов с болезнью Паркинсона , состоянием, приписываемым недостаточному действию дофамина, дополнительно иллюстрирует роль дофамина в положительном подкреплении. Исследование показало, что пациенты, не принимавшие лекарства, с большей готовностью учились с неприятными последствиями, чем с положительным подкреплением. Пациенты, которые принимали лекарства, показали обратное: положительное подкрепление оказалось более эффективной формой обучения при высокой активности дофамина.

Предполагается, что в основе подкрепления лежит нейрохимический процесс с участием дофамина. Когда организм испытывает усиливающий стимул, активируются дофаминовые пути в мозге. Эта сеть путей «высвобождает короткий импульс дофамина на многие дендриты , тем самым передавая глобальный сигнал подкрепления постсинаптическим нейронам ». Это позволяет недавно активированным синапсам увеличивать свою чувствительность к эфферентным (проводящим наружу) сигналам, тем самым увеличивая вероятность появления недавних реакций, предшествовавших подкреплению. Эти реакции статистически наиболее вероятно были поведением, ответственным за успешное достижение подкрепления. Но когда применение подкрепления либо менее немедленное, либо менее случайное (менее последовательное), способность дофамина воздействовать на соответствующие синапсы снижается.

Вопросы о законе действия

Ряд наблюдений, кажется, показывает, что оперантное поведение может быть установлено без подкрепления в смысле, определенном выше. Чаще всего упоминается феномен автоформирования (иногда называемый «отслеживанием знаков»), при котором за стимулом постоянно следует подкрепление, и, как следствие, животное начинает реагировать на стимул. Например, загорается клавиша ответа, а затем предлагается еда. Когда это повторяется несколько раз, голубь начинает клевать ключ, даже если еда приходит независимо от того, клюет птица или нет. Точно так же крысы начинают брать в руки небольшие предметы, например рычаг, когда пища оказывается поблизости. Поразительно, но голуби и крысы сохраняют такое поведение, даже когда клевание клавиши или нажатие на рычаг приводит к уменьшению количества пищи (тренировка бездействия). Еще одно очевидное оперантное поведение, которое проявляется без подкрепления, - это контразагрузка .

Эти и другие наблюдения, по-видимому, противоречат закону эффекта , и они побудили некоторых исследователей предложить новые концептуализации оперантного подкрепления (например). Более общая точка зрения состоит в том, что автоформирование является примером классической обусловленности ; Фактически процедура автоформирования стала одним из наиболее распространенных способов измерения классической обусловленности. С этой точки зрения, на многие виды поведения могут влиять как классические случайности (стимул-реакция), так и оперантные случайности (реакция-подкрепление), и задача экспериментатора состоит в том, чтобы выяснить, как они взаимодействуют.

Приложения

Подкрепление и наказание повсеместно используются в человеческих социальных взаимодействиях, и было предложено и реализовано очень много приложений оперантных принципов. Ниже приведены некоторые примеры.

Зависимость и зависимость

Положительное и отрицательное подкрепление играют центральную роль в развитии и сохранении зависимости и наркотической зависимости . Наркотик, вызывающий привыкание, по своей сути полезен ; то есть он действует как основной положительный стимул к употреблению наркотиков. Система вознаграждения мозга придает ему значимость стимула (т. Е. «Желательно» или «желательно»), так что по мере развития зависимости лишение наркотика приводит к влечению. Кроме того, стимулы, связанные с употреблением наркотиков - например, вид шприца и место использования - становятся связанными с интенсивным подкреплением, вызываемым наркотиком. Эти ранее нейтральные стимулы приобретают несколько свойств: их появление может вызывать тягу и может стать условным положительным подкреплением при продолжении употребления. Таким образом, если зависимый человек сталкивается с одним из этих наркотических сигналов, тяга к соответствующему наркотику может появиться снова. Например, агентства по борьбе с наркотиками ранее использовали плакаты с изображениями принадлежностей для наркотиков как попытку показать опасность употребления наркотиков. Однако такие плакаты больше не используются из-за эффекта значимости стимулов, вызывающего рецидив при виде стимулов, изображенных на плакатах.

У наркозависимых людей отрицательное подкрепление возникает, когда лекарство вводится самостоятельно , чтобы облегчить или «избежать» симптомов физической зависимости (например, тремора и потливости) и / или психологической зависимости (например, ангедонии , беспокойства, раздражительности и т. Д.). тревога), возникающие во время отмены препарата .

Дрессировка животных

Дрессировщики и владельцы домашних животных применяли принципы и практики оперантного кондиционирования задолго до того, как эти идеи были названы и изучены, и дрессировка животных по-прежнему является одним из самых ярких и убедительных примеров оперантного контроля. Из концепций и процедур, описанных в этой статье, наиболее заметными являются следующие: (а) наличие первичного подкрепления (например, мешок собачьих вкусняшек); (б) использование вторичного подкрепления (например, щелчок кликера сразу после желаемого ответа, а затем вкуснятина); (c) случайность, гарантирующая, что подкрепление (например, кликер) следует желаемому поведению, а не чему-то еще; (г) формирование, как в постепенном приучении собаки прыгать все выше и выше; (д) периодическое подкрепление, например постепенное уменьшение частоты подкрепления, чтобы вызвать стойкое поведение без насыщения; (е) цепочка, когда сложное поведение постепенно строится из более мелких единиц.

Пример дрессировки животных из Seaworld, связанный с оперантной обусловленностью

Дрессировка животных влияет на положительное и отрицательное подкрепление. График подкреплений может сыграть большую роль в дрессировке животных.

Прикладной анализ поведения

Прикладной анализ поведения - это дисциплина, инициированная Б. Ф. Скиннером, которая применяет принципы обусловливания к модификации социально значимого человеческого поведения. В нем используются основные концепции теории обусловливания, включая условный стимул (S C ), различительный стимул (S d ), ответ (R) и подкрепляющий стимул (S rein или S r для подкрепления, иногда S ave для отталкивающих стимулов). Условный стимул контролирует поведение, развиваемое респондентом (классическое), например, эмоциональные реакции. Три других термина вместе образуют «трехчленную случайность» Скиннера: различительный стимул дает повод для реакций, которые приводят к подкреплению. Исследователи обнаружили, что следующий протокол является эффективным, когда они используют инструменты оперантного обусловливания для изменения человеческого поведения:

  1. Государственная цель Уточните, какие именно изменения должны быть осуществлены. Например, «снизить вес на 30 фунтов».
  2. Наблюдение за поведением Следите за поведением, чтобы можно было видеть, возникают ли желаемые эффекты. Например, ведите таблицу ежедневных весов.
  3. Подкрепляйте желаемое поведение Например, поздравьте человека с потерей веса. У людей запись поведения может служить подкреплением. Например, когда участник видит закономерность потери веса, это может усилить продолжение поведенческой программы похудания. Однако люди могут воспринимать подкрепление, которое должно быть положительным, как отрицательное и наоборот. Например, запись о потере веса может действовать как отрицательное подкрепление, если она напоминает человеку, насколько он на самом деле тяжел. Лексема экономика , является обмен системой , в которой жетоны приведены в качестве награды за желаемое поведение. Позже токены можно обменять на желаемый приз или награды, такие как власть, престиж, товары или услуги.
  4. Уменьшите стимулы к нежелательному поведению. Например, уберите с кухонных полок конфеты и жирные закуски.

Практики прикладного анализа поведения (ABA) используют эти процедуры, а также их множество вариаций и усовершенствований для решения различных социально значимых форм поведения и проблем. Во многих случаях практикующие врачи используют оперантные методы для развития конструктивного, социально приемлемого поведения, которое заменяет аберрантное поведение. Методы ABA эффективно применяются в таких областях, как ранние интенсивные поведенческие вмешательства для детей с расстройствами аутистического спектра (РАС), исследования принципов, влияющих на преступное поведение , профилактика ВИЧ, сохранение природных ресурсов, образование, геронтология , здоровье и физические упражнения. , промышленная безопасность , овладение языком , замусоривание, медицинские процедуры , воспитание детей, психотерапия , использование ремней безопасности, тяжелые психические расстройства , спорт, токсикомания , фобии , педиатрические нарушения питания, а также управление зоопарком и уход за животными . Некоторые из этих приложений описаны ниже.

Поведение ребенка - тренинг для родителей

Обеспечение положительного подкрепления правильного поведения ребенка является одним из основных направлений обучения родителей управлению. Как правило, родители учатся вознаграждать за соответствующее поведение социальными поощрениями (такими как похвала, улыбки и объятия), а также конкретными наградами (например, наклейками или указаниями на более крупное вознаграждение в рамках системы стимулов, созданной совместно с ребенком). Кроме того, родители учатся выбирать простое поведение в качестве первоначального акцента и вознаграждают за каждый маленький шаг, который их ребенок делает для достижения большей цели (эта концепция называется «последовательные приближения»).

Экономика

И психологи, и экономисты заинтересовались применением оперантных концепций и открытий к поведению людей на рынке. Примером может служить анализ потребительского спроса, индексированного по количеству приобретенного товара. В экономике степень влияния цены на потребление называется «эластичностью спроса по цене». Некоторые товары более эластичны, чем другие; например, изменение цен на определенные продукты питания может иметь большое влияние на покупаемое количество, в то время как на бензин и другие повседневные предметы потребления изменения цен могут в меньшей степени повлиять. С точки зрения оперантного анализа, такие эффекты можно интерпретировать с точки зрения мотивации потребителей и относительной ценности товаров как подкрепляющих факторов.

Азартные игры - расписание с переменным соотношением

Как говорилось ранее в этой статье, график с переменным соотношением дает подкрепление после выдачи непредсказуемого числа ответов. Этот график обычно обеспечивает быструю и настойчивую реакцию. Игровые автоматы рассчитываются по графику с переменным соотношением, и они вызывают у игроков именно такое упорное маневрирование. Выплаты с переменным соотношением от игровых автоматов и других форм азартных игр часто упоминались как фактор, лежащий в основе игровой зависимости.

Военная психология

У людей есть врожденное сопротивление убийству, и они не хотят действовать прямым агрессивным образом по отношению к представителям своего собственного вида, даже ради спасения жизни. Это сопротивление убийству сделало пехоту чрезвычайно неэффективной на протяжении всей истории военных действий.

Этот феномен не был понят до тех пор, пока SLA Marshall (бригадный генерал и военный историк) не провела интервью с пехотой Второй мировой войны сразу после боевого столкновения. В известной и противоречивой книге Маршалла «Люди против огня» говорится, что только 15% солдат стреляли из винтовок с целью убить в бою. После принятия исследований Маршалла в армию США в 1946 году, Отдел исследований кадровых ресурсов армии США начал внедрять новые протоколы обучения, которые напоминают методы оперантного кондиционирования. Последующее применение таких методов увеличило процент солдат, способных убивать, примерно до 50% в Корее и более 90% во Вьетнаме. Революции в обучении включали замену традиционных всплывающих стрельбищ трехмерными всплывающими целями в форме человека, которые разрушались при попадании. Это обеспечило немедленную обратную связь и послужило положительным подкреплением поведения солдата. Другие улучшения методов военной подготовки включали курс стрельбы по времени; более реалистичное обучение; частые повторы; похвала начальства; награды за меткую стрельбу; и групповое признание. Отрицательное подкрепление включает подотчетность сверстников или требование пересдать курсы. Современная военная подготовка обуславливает реакцию среднего мозга на боевое давление, тщательно моделируя реальный бой, используя в основном павловское классическое обусловливание и оперантное обусловливание Скиннера (обе формы бихевиоризма ).

Современное обучение меткой стрельбе является таким прекрасным примером бихевиоризма, что оно годами использовалось во вводном курсе психологии, преподаваемом всем курсантам в Военной академии США в Вест-Пойнте, как классический пример оперантной обусловленности. В 1980-х годах во время визита в Вест-Пойнт Б. Ф. Скиннер определил современную военную стрельбу как почти идеальное применение оперантной обусловленности.

Подполковник Дэйв Гроссман заявляет об оперирующей физической подготовке и военной подготовке в США, что:

Вполне возможно, что никто намеренно не использовал методы оперантного кондиционирования или модификации поведения для обучения солдат в этой области ... Но с точки зрения психолога, который также является историком и кадровым военным, для меня становится все более очевидным, что это именно то, что было достигнуто.

Теория подталкивания

Теория подталкивания (или подталкивания) - это концепция в бихевиористской науке , политической теории и экономике, которая утверждает, что косвенные предложения, направленные на достижение ненасильственного подчинения, могут влиять на мотивы, стимулы и принятие решений группами и отдельными лицами, по крайней мере, столь же эффективно - если не более эффективно - чем прямое указание, законодательство или правоприменение.

Хвалить

Концепция похвалы как средства поведенческого подкрепления уходит корнями в модель оперантного обусловливания Б. Ф. Скиннера. Через эту призму похвала рассматривается как средство положительного подкрепления, при котором наблюдаемое поведение повышается за счет случайной похвалы за такое поведение. Сотни исследований продемонстрировали эффективность похвалы в поощрении позитивного поведения, особенно в исследовании того, как учителя и родители используют похвалу в отношении ребенка для улучшения поведения и успеваемости, а также в исследовании производительности труда. Также было продемонстрировано, что похвала усиливает позитивное поведение у соседних людей, которых не хвалят (например, у одноклассника получателя похвалы) через косвенное подкрепление. Похвала может быть более или менее эффективной в изменении поведения в зависимости от ее формы, содержания и подачи. Чтобы похвала повлияла на позитивное изменение поведения, она должна зависеть от позитивного поведения (т.е. вводиться только после того, как целевое поведение реализовано), должна указывать особенности поведения, которое должно быть усилено, и должна быть искренней и искренней. достоверно.

Признавая эффект похвалы как позитивной стратегии подкрепления, многочисленные поведенческие и когнитивные поведенческие вмешательства включали использование похвалы в свои протоколы. Стратегическое использование похвалы признано практикой, основанной на фактах, как в управлении классом, так и в программах обучения родителей, хотя в исследованиях вмешательства похвала часто относят к более широкой категории положительного подкрепления, которая включает такие стратегии, как стратегическое внимание и поведенческие поощрения.

Было проведено несколько исследований влияния когнитивно-поведенческой терапии и оперантно-поведенческой терапии на различные медицинские состояния. Когда пациенты разработали когнитивные и поведенческие методы, которые изменили их поведение, отношения и эмоции; тяжесть их боли уменьшилась. Результаты этих исследований показали влияние когнитивных функций на восприятие боли, а представленное воздействие объяснило общую эффективность когнитивно-поведенческой терапии (КПТ) и оперантно-поведенческой терапии (ОБТ).

Психологическая манипуляция

Брайкер выделил следующие способы, которыми манипуляторы управляют своими жертвами:

Травматическое соединение

Травматическая связь возникает в результате продолжающихся циклов жестокого обращения, в которых периодическое усиление вознаграждения и наказания создает сильные эмоциональные связи, устойчивые к изменениям.

Другой источник указал, что «Необходимыми условиями для травматической связи является то, что один человек должен доминировать над другим, и что уровень жестокого обращения хронически возрастает, а затем спадает. Отношения характеризуются периодами снисходительного, сострадательного и даже ласкового поведения со стороны доминирующего человека, перемежающихся периодическими эпизодами жестокого обращения. Чтобы сохранить преимущество, обидчик манипулирует поведением жертвы и ограничивает возможности жертвы, чтобы сохранить дисбаланс сил. Любая угроза балансу доминирования и подчинения может быть встречена нарастающим циклом наказания, начиная от бурного запугивания и заканчивая резкими вспышками насилия. Виктимизатор также изолирует жертву от других источников поддержки, что снижает вероятность обнаружения и вмешательства, ухудшает способность жертвы получать уравновешивающую обратную связь с самореферентной реакцией и усиливает чувство односторонней зависимости ... Травматические последствия этих оскорбительных отношений может включать в себя нарушение способности жертвы к точной самооценке, ведущее к чувству личной неадекватности и подчиненному чувству зависимости от доминирующего человека. Жертвы также могут столкнуться с различными неприятными социальными и правовыми последствиями своей эмоциональной и поведенческой связи с кем-то, кто совершил агрессивные действия, даже если они сами были реципиентами агрессии. '.

Видеоигры

Большинство видеоигр построено на основе цикла принуждения , добавляя тип положительного подкрепления через график с переменной скоростью, чтобы игрок продолжал играть. Это может привести к патологии зависимости от видеоигр .

В рамках тенденции в монетизации видеоигр во время 2010s, некоторые игры предложили лут коробку в качестве награды или предметы , которые можно приобрести на реальных средства. Ящики содержат случайный набор игровых предметов. Эта практика была привязана к тем же методам, которые используются в игровых автоматах и ​​других игровых устройствах для выдачи вознаграждений, поскольку она следует графику с переменной ставкой. Хотя в целом считается, что лутбоксы являются формой азартных игр, такая практика классифицируется как таковая только в нескольких странах. Однако методы использования этих предметов в качестве виртуальной валюты для азартных онлайн-игр или торговли за реальные деньги привели к созданию рынка азартных игр со скинами, который проходит юридическую оценку.

Культура страха на рабочем месте

Эшфорт обсудил потенциально деструктивные стороны лидерства и определил то, что он называл мелкими тиранами : лидеры, которые придерживаются тиранического стиля управления, что создает атмосферу страха на рабочем месте. Частичное или периодическое негативное подкрепление может создать эффективную атмосферу страха и сомнений . Когда сотрудники понимают, что с хулиганами можно мириться, в результате может возникнуть атмосфера страха.

Индивидуальные различия в чувствительности к вознаграждению , наказанию и мотивации изучались в рамках теории чувствительности к подкреплению, а также применялись к производительности на рабочем месте .

Одна из многих причин высоких затрат, связанных с здравоохранением, - это практика защитной медицины. Прабху рассматривает статью Коула и обсуждает, как реакции двух групп нейрохирургов являются классическим оперантным поведением. Одна группа практикует в штате с ограничениями по медицинским искам, а другая группа без ограничений. Группа нейрохирургов была анонимно опрошена об их образцах практики. Врачи изменили свою практику в ответ на отрицательный отзыв (страх перед судебным иском) в группе, которая практиковала в штате без ограничений по медицинским искам.

Смотрите также

использованная литература

{78} Александр Б.К. (2010) Зависимость: Вид из Крысиного парка, извлечено из Зависимости: Вид из Крысиного парка (2010)

внешние ссылки