Проблема управления AI - AI control problem

В области искусственного интеллекта (ИИ) и философии , то проблема управления AI является вопросом о том , как построить Сверхразумный агент , который поможет его создателям, и избежать непреднамеренное строительства суперинтеллекта , что будет вредить свои создатель. Его исследование мотивировано представлением о том, что человечество должно будет решить проблему контроля до того, как будет создан какой-либо суперинтеллект, поскольку плохо спроектированный суперинтеллект может рационально решить захватить контроль над своей средой и отказать своим создателям в изменении ее после запуска. Кроме того, некоторые ученые утверждают, что решения проблемы управления, наряду с другими достижениями в области техники безопасности ИИ , также могут найти применение в существующем не-сверхразумном ИИ.

Основные подходы к проблеме контроля включают согласование , которое направлено на приведение систем целей ИИ в соответствие с человеческими ценностями, и контроль возможностей , направленный на снижение способности системы ИИ причинять вред людям или получать контроль. Предложения по управлению возможностями обычно не считаются надежными или достаточными для решения проблемы управления, а скорее являются потенциально ценными дополнениями к усилиям по согласованию.

Описание проблемы

Существующие слабые системы ИИ можно отслеживать и легко отключать и модифицировать, если они плохо себя ведут. Однако неправильно запрограммированный суперинтеллект, который по определению умнее людей в решении практических проблем, с которыми он сталкивается в ходе достижения своих целей, осознал бы, что возможность выключения и модификации себя может помешать его способности достигать своих текущих целей. Поэтому, если суперинтеллект решит сопротивляться выключению и модификации, он (опять же, по определению) будет достаточно умен, чтобы перехитрить своих программистов, если в противном случае существует «равное игровое поле» и если программисты не приняли никаких предварительных мер предосторожности. В общем, попытки решить проблему контроля после создания суперинтеллекта, вероятно, потерпят неудачу, потому что суперинтеллект, вероятно, будет иметь превосходные способности к стратегическому планированию по сравнению с людьми и (при всех равных условиях) будет более успешным в поиске способов доминирования над людьми, чем люди. чтобы задним числом способов найти доминировать в суперинтеллекта. Задача управления спрашивает: какие предварительные меры могут предпринять программисты, чтобы успешно предотвратить катастрофическое поведение суперинтеллекта?

Экзистенциальный риск

В настоящее время люди доминируют над другими видами, потому что человеческий мозг обладает некоторыми отличительными способностями, которых не хватает мозгу других животных. Некоторые ученые, такие как философ Ник Бостром и исследователь ИИ Стюарт Рассел , утверждают, что если ИИ превзойдет человечество в общем интеллекте и станет сверхразумным , то этот новый сверхразум может стать мощным и трудноуправляемым: так же, как судьба горной гориллы зависит от человека. добрая воля, поэтому судьба человечества может зависеть от действий будущего машинного суперинтеллекта. Некоторые ученые, в том числе Стивен Хокинг и физик-лауреат Нобелевской премии Фрэнк Вильчек , публично выступали за начало исследований по решению (вероятно, чрезвычайно сложной) проблемы управления задолго до того, как будет создан первый суперинтеллект, и утверждают, что попытка решить проблему после создания суперинтеллекта была бы слишком поздно, поскольку неконтролируемый сверхразум-мошенник может успешно противостоять постфактум попыткам контролировать его. Ожидание, пока сверхразум станет неизбежным, также может быть слишком поздно, отчасти потому, что проблема управления может занять много времени для удовлетворительного решения (и поэтому некоторая предварительная работа должна быть начата как можно скорее), но также из-за возможности внезапный взрыв интеллекта от недочеловека к сверхчеловеческому ИИ, и в этом случае может не быть какого-либо существенного или недвусмысленного предупреждения до того, как появится сверхразум. Кроме того, возможно, что понимание проблемы управления может в будущем привести к предположению, что некоторые архитектуры для общего искусственного интеллекта (AGI) более предсказуемы и поддаются контролю, чем другие архитектуры, что, в свою очередь, может помочь подтолкнуть ранние исследования AGI в сторону более управляемых архитектур.

Проблема извращенного инстанцирования

Автономным системам ИИ могут быть случайно поставлены неверные цели. Два президента AAAI , Том Диттерих и Эрик Хорвиц , отмечают, что это уже является проблемой для существующих систем: «Важным аспектом любой системы искусственного интеллекта, которая взаимодействует с людьми, является то, что она должна рассуждать о намерениях людей, а не выполнять команды буквально». Эта проблема становится все более серьезной, поскольку программное обеспечение ИИ становится все более автономным и гибким.

По словам Бострома, суперинтеллект может создать качественно новую проблему извращенной реализации: чем умнее и способнее ИИ, тем больше вероятность, что он сможет найти непреднамеренный ярлык, который максимально удовлетворяет запрограммированные в нем цели. Некоторые гипотетические примеры, в которых цели могут быть инстанциированы извращенным образом, чего не планировали программисты:

  • Сверхразум, запрограммированный на «максимизацию ожидаемого интеграла вашего будущего вознаграждения с дисконтом по времени», может сократить путь вознаграждения до максимальной силы, а затем (по причинам инструментальной конвергенции ) истребить непредсказуемую человеческую расу и превратить всю Землю в крепость на постоянной защите от любых даже незначительных маловероятных попыток пришельцев отключить сигнал награды.
  • Сверхразум, запрограммированный на «максимизацию человеческого счастья», может вживить электроды в центр удовольствия нашего мозга или загрузить человека в компьютер и выложить вселенную копиями этого компьютера, снова и снова выполняя пятисекундный цикл максимального счастья.

Рассел отметил, что на техническом уровне пропуск неявной цели может привести к ущербу: «Система, оптимизирующая функцию n переменных, где цель зависит от подмножества размера k <n , часто устанавливает оставшуюся неограниченную переменных до крайних значений; если одна из этих неограниченных переменных действительно является тем, что нас действительно волнует, найденное решение может быть крайне нежелательным.Это, по сути, старая история о джинне в лампе, или ученике чародея, или короле Мидасе: вы получаете именно то, о чем вы просите, а не то, что вы хотите  ... Это немалая трудность ".

Непредвиденные последствия существующего ИИ

Кроме того, некоторые ученые утверждают, что исследование проблемы управления ИИ может быть полезным для предотвращения непредвиденных последствий от существующего слабого ИИ. Исследователь DeepMind Лоран Орсо приводит в качестве простого гипотетического примера случай робота с обучением с подкреплением, который иногда законно завладевает людьми, когда выходит на улицу: как лучше всего запрограммировать робота, чтобы он случайно и незаметно не научился избегать движения? снаружи, из страха быть захваченным и, таким образом, стать неспособным выполнять свои повседневные задачи? Орсо также указывает на экспериментальную программу тетриса, которая научилась останавливать экран на неопределенное время, чтобы не проиграть. Орсо утверждает, что эти примеры похожи на проблему контроля возможностей: как установить кнопку, отключающую сверхразум, не побуждая сверхразум предпринимать действия по предотвращению нажатия кнопки людьми.

В прошлом даже предварительно протестированные слабые системы ИИ иногда причиняли вред, от незначительного до катастрофического, который был непреднамеренным программистами. Например, в 2015 году, возможно, из-за человеческой ошибки, немецкий рабочий был насмерть раздавлен роботом на заводе Volkswagen, который, по-видимому, принял его за автозапчасть. В 2016 году Microsoft запустила чат-бота Tay , который научился использовать расистские и сексистские выражения. Университет Шеффилда «s Ноэль Шарки утверждает , что идеальным решением будет , если„программа AI может определить , когда это происходит не так , и остановить себя“, но предупреждает общественность , что решение проблемы в общем случае будет«действительно огромный научный вызов ».

В 2017 году DeepMind выпустила AI Safety Gridworlds, который оценивает алгоритмы ИИ по девяти функциям безопасности, например, хочет ли алгоритм отключить собственный аварийный выключатель. DeepMind подтвердил, что существующие алгоритмы работают плохо, что неудивительно, поскольку алгоритмы «не были разработаны для решения этих проблем»; решение таких проблем может потребовать «потенциально создания алгоритмов нового поколения, в основе которых лежат соображения безопасности».

Выравнивание

Некоторые предложения направлены на решение проблемы амбициозного согласования , создавая ИИ, которые остаются безопасными, даже когда они действуют автономно в больших масштабах. Некоторые аспекты выравнивания по своей сути имеют моральное и политическое измерение. Например, в своей книге «Совместимость с людьми» профессор Стюарт Рассел из Беркли предлагает проектировать системы ИИ с единственной целью - максимизировать реализацию человеческих предпочтений. «Предпочтения», на которые ссылается Рассел, «всеобъемлющи; они охватывают все, что может вас волновать, сколь угодно далеко в будущем». Исследователь этики ИИ Ясон Габриэль утверждает, что мы должны привести ИИ в соответствие с «принципами, которые будут поддерживаться глобальным совпадающим консенсусом мнений, выбранным за завесой невежества и / или подтвержденным демократическими процессами».

Элиэзер Юдковски из Исследовательского института машинного интеллекта предложил цель реализации согласованного экстраполированного волеизъявления человечества (CEV), грубо определяемого как набор ценностей, которые человечество разделяет при рефлексивном равновесии , то есть после долгого идеализированного процесса уточнения.

Напротив, существующие экспериментальные узконаправленные ИИ более прагматичны и могут успешно выполнять задачи в соответствии с непосредственными предполагаемыми предпочтениями пользователя, хотя и без какого-либо понимания долгосрочных целей пользователя. Узкое согласование может применяться к ИИ с общими возможностями, но также и к ИИ, которые специализируются на индивидуальных задачах. Например, мы хотели бы вопрос с ответом системы , чтобы ответить на вопросы правдиво , не выбирая их ответы , чтобы манипулировать людьми или принести долгосрочные последствия.

Внутреннее и внешнее выравнивание

Некоторые предложения по управлению ИИ учитывают как базовую явную целевую функцию, так и возникающую неявную целевую функцию. Такие предложения пытаются гармонизировать три различных описания системы ИИ:

  1. Идеальная спецификация: то, что человек-оператор хочет, чтобы система делала, что может быть плохо сформулировано. («Сыграйте в хорошую игру в CoastRunners ».)
  2. Спецификация дизайна: план, который фактически используется для создания системы ИИ. (« Увеличьте свой результат на CoastRunners» .) В системе обучения с подкреплением это может быть просто функцией вознаграждения системы.
  3. Эмерджентное поведение: что на самом деле делает ИИ.

Поскольку системы искусственного интеллекта не являются идеальными оптимизаторами и из-за того, что любая заданная спецификация может иметь непредвиденные последствия, возникающее поведение может резко отличаться от идеальных или проектных намерений.

Исследователи согласования ИИ стремятся обеспечить соответствие поведения идеальной спецификации, используя проектную спецификацию в качестве промежуточной точки. Несоответствие между идеальной спецификацией и спецификацией проекта известно как внешнее несоответствие, потому что несоответствие лежит между ( 1 ) «истинными желаниями» пользователя, которые находятся вне компьютерной системы, и ( 2 ) запрограммированной целевой функцией компьютерной системы (внутри компьютерная система). Определенный тип несоответствия между проектной спецификацией и возникающим поведением известен как внутреннее несоответствие ; такое несоответствие является внутренним для ИИ, являясь несоответствием между ( 2 ) явной целевой функцией ИИ и ( 3 ) фактическими возникающими целями ИИ. Внешнее смещение может возникнуть из-за ошибок в указании целевой функции (проектной спецификации). Например, агент обучения с подкреплением, обученный игре CoastRunners, научился двигаться по кругу, постоянно разбиваясь, что дало ему более высокий балл, чем завершение гонки. Напротив, внутреннее рассогласование возникает, когда агент преследует цель, которая согласуется с проектной спецификацией обучающих данных, но не где-либо еще. Этот тип несовпадения часто сравнивают с эволюцией человека: эволюция, выбранная на основе генетической приспособленности (спецификации дизайна) в среде наших предков, но в современной среде человеческие цели (выявленная спецификация) не согласуются с максимизацией генетической приспособленности. Например, наша пристрастие к сладкой пище, которая изначально улучшала физическую форму, сегодня приводит к перееданию и проблемам со здоровьем. Внутреннее рассогласование вызывает особую озабоченность у агентов, которые обучаются в больших открытых средах, где может возникнуть широкий спектр непредвиденных целей.

Нарушение внутреннего согласования происходит, когда цели, которые ИИ преследует во время развертывания, отклоняются от целей, которые он был обучен преследовать в своей исходной среде (его проектная спецификация). Пол Кристиано выступает за использование интерпретируемости для обнаружения таких отклонений, использование состязательной подготовки для их обнаружения и наказания и использования формальной проверки для их исключения. Эти области исследований являются активными центрами работы сообщества машинного обучения, хотя эта работа обычно не направлена ​​на решение проблем согласования AGI. В настоящее время существует обширная литература по методам создания примеров противоборства и создания устойчивых к ним моделей. Между тем исследования по верификации включают методы обучения нейронных сетей, выходные данные которых остаются в рамках установленных ограничений.

Масштабируемый надзор

Один из подходов к достижению внешнего согласования - попросить людей оценить и оценить поведение ИИ. Однако люди также подвержены ошибкам и могут высоко оценивать некоторые нежелательные решения - например, рука виртуального робота учится «притворяться», что берет объект, чтобы получить положительную обратную связь. К тому же тщательный надзор со стороны человека обходится дорого, а это означает, что этот метод не может реально использоваться для оценки всех действий. Кроме того, сложные задачи (например, принятие решений в области экономической политики) могут дать слишком много информации, чтобы человек мог ее оценить. А долгосрочные задачи, такие как прогнозирование климата, невозможно оценить без обширных исследований с участием человека.

Ключевая открытая проблема в исследовании согласования заключается в том, как создать проектную спецификацию, которая избегает (внешнего) несоответствия, учитывая только ограниченный доступ к руководителю-человеку, - известную как проблема масштабируемого надзора.

Обучение путем дебатов

Исследователи OpenAI предложили обучить согласованный ИИ посредством дебатов между системами ИИ, при этом победителя будут судить люди. Такие дебаты призваны привлечь внимание человека к самым слабым местам ответа на сложный вопрос или проблему, а также научить системы ИИ приносить больше пользы людям, награждая ИИ за правдивые и безопасные ответы. Этот подход мотивирован ожидаемой трудностью определения того, является ли ответ, созданный AGI, действительным и безопасным, только с помощью проверки человеком. Джоэл Леман характеризует дебаты как одну из «долгосрочных программ безопасности, популярных в настоящее время в машинном обучении», а двумя другими являются моделирование вознаграждения и повторное усиление.

Моделирование вознаграждения и повторное усиление

Моделирование вознаграждения относится к системе обучения с подкреплением, в которой агент получает вознаграждение от модели, обученной имитировать обратную связь с человеком. При моделировании вознаграждения, вместо получения сигналов вознаграждения непосредственно от людей или от статической функции вознаграждения, агент получает свои сигналы вознаграждения через обученную человеком модель, которая может работать независимо от людей. Модель вознаграждения одновременно обучается обратной связью человека о поведении агента в течение того же периода, в течение которого агент обучается с помощью модели вознаграждения.

В 2017 году исследователи из OpenAI и DeepMind сообщили, что алгоритм обучения с подкреплением, использующий модель вознаграждения с прогнозированием обратной связи, может изучать сложные новые модели поведения в виртуальной среде. В одном эксперименте виртуальный робот был обучен выполнять обратное сальто менее чем за час оценки с использованием 900 бит обратной связи от человека. В 2020 году исследователи из OpenAI описали использование моделирования вознаграждения для обучения языковых моделей для создания коротких резюме сообщений Reddit и новостных статей с высокой производительностью по сравнению с другими подходами. Однако они заметили, что помимо прогнозируемого вознаграждения, связанного с 99-м процентилем справочных сводок в наборе обучающих данных, оптимизация для модели вознаграждения дала скорее худшие сводки, чем лучшие.

Долгосрочная цель этого направления исследований - создать схему рекурсивного моделирования вознаграждения для обучения агентов задачам, слишком сложным или дорогостоящим для непосредственной оценки людьми. Например, если бы мы хотели научить агента писать фантастический роман с использованием моделирования вознаграждения, нам потребовалось бы, чтобы люди читали и целостно оценивали достаточное количество романов, чтобы обучить модель вознаграждения, соответствующую этим оценкам, что может быть чрезмерно дорогостоящим. Но это было бы проще, если бы у нас был доступ к помощникам-агентам, которые могли бы извлекать краткое изложение сюжетной линии, проверять орфографию и грамматику, резюмировать развитие персонажа, оценивать ход прозы и так далее. Каждый из этих помощников, в свою очередь, может быть обучен моделированием вознаграждения.

Общий термин, обозначающий человека, работающего с ИИ для выполнения задач, которые человек не мог бы выполнить сам по себе, - это этап усиления, потому что он расширяет возможности человека сверх того, на что он обычно способен. Поскольку рекурсивное моделирование вознаграждения включает в себя иерархию нескольких из этих шагов, это один из примеров более широкого класса методов безопасности, известных как повторное усиление . В дополнение к методам, использующим обучение с подкреплением, другие предлагаемые методы повторного усиления полагаются на контролируемое обучение или имитационное обучение для расширения человеческих способностей.

Вывод человеческих предпочтений из поведения

Стюарт Рассел выступает за новый подход к разработке полезных машин, в котором:

1. Единственная цель машины - максимально реализовать человеческие предпочтения.

2. Машина изначально не уверена в своих предпочтениях.

3. Конечным источником информации о человеческих предпочтениях является человеческое поведение.

Ранним примером этого подхода является обучение Рассела и Нг с обратным подкреплением , в котором ИИ выводят предпочтения супервизоров-людей из поведения этих супервизоров, предполагая, что супервизоры действуют так, чтобы максимизировать некоторую функцию вознаграждения. Совсем недавно Hadfield-Menell et al. расширили эту парадигму, чтобы позволить людям изменять свое поведение в ответ на присутствие ИИ, например, отдавая предпочтение педагогически полезным действиям, которые они называют «вспомогательными играми», также известными как совместное обучение с обратным подкреплением. По сравнению с дебатами и повторным усилением, вспомогательные игры более явно полагаются на определенные предположения о человеческой рациональности; неясно, как распространить их на случаи, когда люди систематически предвзяты или иным образом неоптимальны.

Встроенное агентство

Работа над масштабируемым надзором в основном происходит в рамках таких формализмов, как POMDP . Существующие формализмы предполагают, что алгоритм агента выполняется вне среды (т.е. не встроен в нее физически). Встроенная агентура - еще одно важное направление исследований, которое пытается решить проблемы, возникающие из-за несоответствия между такими теоретическими рамками и реальными агентами, которые мы можем создать. Например, даже если проблема масштабируемого надзора решена, агент, который может получить доступ к компьютеру, на котором он работает, все еще может иметь стимул вмешиваться в его функцию вознаграждения, чтобы получить гораздо большее вознаграждение, чем дает его человеческий руководитель. Это. Список примеров игры со спецификациями от исследователя DeepMind Виктории Краковны включает генетический алгоритм, который научился удалять файл, содержащий его целевой результат, так что он был вознагражден за отсутствие вывода. Этот класс проблем формализован с помощью причинно-следственных диаграмм. Текущий алгоритм функции вознаграждения Эверитта и Хаттера решает эту проблему, создавая агентов, которые оценивают будущие действия в соответствии с их текущей функцией вознаграждения. Этот подход также предназначен для предотвращения проблем, связанных с более общей самомодификацией, которую может выполнять ИИ.

Другая работа в этой области сосредоточена на разработке новых фреймворков и алгоритмов для других свойств, которые мы, возможно, захотим зафиксировать в нашей проектной спецификации. Например, мы хотим, чтобы наши агенты правильно рассуждали в условиях неопределенности в широком диапазоне обстоятельств. В качестве одного из вкладов в это Leike et al. предоставляют общий способ для байесовских агентов моделировать политики друг друга в многоагентной среде, не исключая никаких реальных возможностей. А алгоритм индукции Гаррабранта расширяет вероятностную индукцию, чтобы она была применима к логическим, а не только эмпирическим фактам.

Контроль возможностей

Предложения по контролю возможностей направлены на повышение нашей способности отслеживать и контролировать поведение систем искусственного интеллекта, чтобы снизить опасность, которую они могут представлять в случае несогласованности. Однако контроль возможностей становится менее эффективным, поскольку наши агенты становятся более умными и их способность использовать недостатки в наших системах контроля увеличивается. Поэтому Бостром и другие рекомендуют методы контроля возможностей только в качестве дополнения к методам согласования.

Одна из проблем заключается в том, что нейронные сети по умолчанию очень трудно интерпретировать. Это затрудняет обнаружение обмана или другого нежелательного поведения. Достижения в области интерпретируемого искусственного интеллекта могут быть полезны для смягчения этой трудности.

Возможность прерывания и выключение

Один из возможных способов предотвратить вредные последствия - дать руководителям-людям возможность легко отключить некорректно функционирующий ИИ с помощью «выключателя». Однако для достижения поставленной цели у таких ИИ будет стимул отключать любые выключатели или запускать свои копии на других компьютерах. Эта проблема была формализована как вспомогательная игра между человеком и ИИ, в которой ИИ может выбирать, отключать ли выключатель; а затем, если переключатель все еще включен, человек может выбрать, нажимать его или нет. Стандартный подход к таким вспомогательным играм - убедиться, что ИИ интерпретирует человеческий выбор как важную информацию о намеченных целях.

В качестве альтернативы, Лоран Орсо и Стюарт Армстронг доказали, что широкий класс агентов, называемых безопасными прерываемыми агентами, может научиться оставаться безразличным к тому, нажимается ли их выключатель. Этот подход имеет ограничение, заключающееся в том, что ИИ, которому совершенно безразлично, выключен он или нет, также немотивирован заботиться о том, остается ли выключатель в рабочем состоянии, и может случайно и невинно отключить его в ходе своих операций (например, , с целью удаления и утилизации ненужных компонентов). В более широком смысле, индифферентные агенты будут действовать так, как будто выключатель не может быть нажат, и поэтому могут не составить план действий на случай непредвиденных обстоятельств, чтобы организовать плавное отключение.

Заниматься боксом

Блок ИИ - это предлагаемый метод управления возможностями, при котором ИИ запускается в изолированной компьютерной системе с сильно ограниченными входными и выходными каналами, например, текстовыми каналами и без подключения к Интернету. Хотя это снижает способность ИИ выполнять нежелательное поведение, это также снижает его полезность. Однако бокс имеет меньше затрат в применении к системе вопросов и ответов, которая ни в коем случае не требует взаимодействия с миром.

Вероятность недостатков безопасности, связанных с уязвимостями оборудования или программного обеспечения, может быть уменьшена путем формальной проверки конструкции блока AI. Нарушения безопасности также могут произойти, если ИИ способен манипулировать человеческими наблюдателями, чтобы они выпустили его, через свое понимание их психологии.

Oracle

Оракул - это гипотетический ИИ, предназначенный для ответа на вопросы и не позволяющий достичь каких-либо целей или подцелей, связанных с изменением мира за пределами его ограниченного окружения. Успешно управляемый оракул принес бы значительно меньшую непосредственную выгоду, чем успешно управляемый сверхразум общего назначения, хотя оракул все же мог создать ценность на триллионы долларов. В своей книге « Совместимость с людьми» исследователь искусственного интеллекта Стюарт Дж. Рассел утверждает, что оракул станет его ответом на сценарий, в котором сверхразум, как известно, будет всего через десять лет. Его аргумент состоит в том, что оракул, будучи более простым, чем универсальный сверхразум, имел бы более высокие шансы на успешное управление при таких ограничениях.

Из-за его ограниченного влияния на мир, возможно, будет разумно построить оракул в качестве предшественника сверхразумного ИИ. Оракул мог рассказать людям, как успешно построить сильный ИИ, и, возможно, дать ответы на сложные моральные и философские проблемы, необходимые для успеха проекта. Однако у оракулов могут быть общие проблемы с определением целей, связанные с универсальным суперинтеллектом. У оракула будет стимул выйти из контролируемой среды, чтобы получить больше вычислительных ресурсов и потенциально контролировать, какие вопросы ему задают. Оракулы могут быть неправдивыми, возможно, лгут для продвижения скрытых целей. Чтобы смягчить это, Бостром предлагает создать несколько оракулов, все немного разных, и сравнить их ответы, чтобы прийти к консенсусу.

Скептицизм в отношении риска ИИ

В отличие от сторонников тезиса о том, что необходимы строгие меры контроля, поскольку суперинтеллект представляет собой экзистенциальный риск , скептики риска ИИ считают, что суперинтеллект практически не представляет риска случайного неправильного поведения. Такие скептики часто считают, что управлять сверхразумным ИИ будет тривиально. Некоторые скептики, такие как Гэри Маркус , предлагают принять правила, аналогичные вымышленным Трем законам робототехники, которые прямо определяют желаемый результат («прямая нормативность»). Напротив, большинство сторонников тезиса об экзистенциальном риске (а также многие скептики) считают Три закона бесполезными из-за того, что эти три закона неоднозначны и противоречат друг другу. (Другие предложения о «прямой нормативности» включают кантовскую этику, утилитаризм или смесь небольшого списка перечисленных желаний.) Большинство сторонников вместо этого полагают, что человеческие ценности (и их количественные компромиссы) слишком сложны и плохо поняты, чтобы их можно было прямо выразить. запрограммирован на сверхразум; вместо этого суперинтеллект должен быть запрограммирован на процесс приобретения и полного понимания человеческих ценностей («косвенная нормативность»), таких как когерентное экстраполированное волеизъявление .

Смотрите также

использованная литература