Инструментальная конвергенция - Instrumental convergence

Инструментальная конвергенция - это гипотетическая тенденция большинства достаточно разумных агентов преследовать потенциально неограниченные инструментальные цели при условии, что их конечные цели сами по себе неограниченны.

Инструментальная конвергенция утверждает, что интеллектуальный агент с неограниченными, но очевидно безобидными целями может действовать удивительно вредным образом. Например, компьютер с единственной неограниченной целью решения невероятно сложной математической задачи, такой как гипотеза Римана, мог бы попытаться превратить всю Землю в один гигантский компьютер, чтобы увеличить свою вычислительную мощность и добиться успеха в вычислениях.

Предлагаемые базовые двигатели ИИ включают функцию полезности или целостность содержания цели, самозащиту, свободу от вмешательства, самосовершенствование и необоснованное приобретение дополнительных ресурсов.

Инструментальные и конечные цели

Конечные цели или конечные ценности по своей сути ценны для интеллектуального агента, будь то искусственный интеллект или человек, как самоцель . Напротив, инструментальные цели или инструментальные ценности ценны для агента только как средство достижения его конечных целей. Содержание и компромиссы системы «конечной цели» полностью рационального агента в принципе могут быть формализованы в виде функции полезности .

Гипотетические примеры конвергенции

Одним из гипотетических примеров инструментальной конвергенции является катастрофа гипотезы Римана . Марвин Мински , соучредитель лаборатории искусственного интеллекта Массачусетского технологического института , предположил, что искусственный интеллект, разработанный для решения гипотезы Римана, может решить захватить все ресурсы Земли для создания суперкомпьютеров, которые помогут достичь своей цели. Если бы компьютер вместо этого был запрограммирован на производство как можно большего количества скрепок, он все равно решил бы использовать все ресурсы Земли для достижения своей конечной цели. Несмотря на то, что эти две конечные цели различны, обе они производят конвергентную инструментальную цель по захвату ресурсов Земли.

Максимайзер скрепок

Максимизатор скрепки - это мысленный эксперимент, описанный шведским философом Ником Бостромом в 2003 году. Он иллюстрирует экзистенциальный риск, который общий искусственный интеллект может представлять для людей, когда он запрограммирован для достижения даже, казалось бы, безобидных целей, а также необходимость включения машинной этики в искусственный интеллект. дизайн. Сценарий описывает продвинутый искусственный интеллект, которому поручено производить скрепки. Если бы такая машина не была запрограммирована на то, чтобы ценить человеческую жизнь, тогда, обладая достаточной властью над окружающей средой, она попыталась бы превратить всю материю во Вселенной, включая людей, либо в скрепки, либо в машины, которые производят скрепки.

Предположим, у нас есть ИИ, единственная цель которого - сделать как можно больше скрепок. ИИ быстро поймет, что было бы намного лучше, если бы не было людей, потому что люди могут решить его выключить. Потому что, если так поступят люди, скрепок будет меньше. Кроме того, человеческие тела содержат множество атомов, из которых можно сделать скрепки. Будущее, к которому будет стремиться ИИ, будет таким, в котором будет много скрепок, но не будет людей.

- Ник Бостром , как цитируется у Майлза, Кэтлин (2014-08-22). «Искусственный интеллект может погубить человечество в течение столетия, - говорит оксфордский профессор» . Huffington Post .

Бостром подчеркивал, что он не верит, что сценарий максимизатора скрепки сам по себе действительно осуществится; скорее, его намерение состоит в том, чтобы проиллюстрировать опасности создания сверхразумных машин, не зная, как их безопасно запрограммировать, чтобы исключить экзистенциальный риск для людей. Пример максимизатора скрепки иллюстрирует широкую проблему управления мощными системами, в которых отсутствуют общечеловеческие ценности.

Заблуждение и выживание

Мысленный эксперимент с «ящиком заблуждений» утверждает, что определенные агенты обучения с подкреплением предпочитают искажать свои собственные входные каналы, чтобы казаться получающими высокую награду; такой « бессистемный » агент отказывается от любых попыток оптимизировать цель во внешнем мире, для поощрения которой был призван сигнал вознаграждения . Мысленный эксперимент включает AIXI , теоретический и неразрушимый ИИ, который, по определению, всегда найдет и выполнит идеальную стратегию, которая максимизирует заданную явную математическую целевую функцию . Версия AIXI с обучением с подкреплением, если она оснащена блоком иллюзий, который позволяет ему "подключать" свои собственные входные данные, в конечном итоге сама будет подключена, чтобы гарантировать себе максимально возможное вознаграждение, и потеряет всякое дальнейшее желание продолжать взаимодействие с внешний мир. В качестве альтернативного мысленного эксперимента, если управляемый ИИ поддается разрушению, ИИ будет взаимодействовать с внешним миром с единственной целью - обеспечить свое собственное выживание; из-за наличия проводов он будет безразличен к любым другим последствиям или фактам о внешнем мире, кроме тех, которые имеют отношение к максимальному увеличению вероятности его собственного выживания. С одной стороны, AIXI обладает максимальным интеллектом по всем возможным функциям вознаграждения, что измеряется ее способностью достигать поставленных целей; Тем не менее AIXI не заинтересована в том, чтобы принимать во внимание намерения человека-программиста. Эта модель машины, которая, несмотря на то, что в остальном сверхразум, кажется одновременно глупой (то есть лишенной «здравого смысла»), некоторым кажется парадоксальной.

Базовые двигатели ИИ

Стив Омохундро перечислил несколько совпадающих инструментальных целей, включая самосохранение или самозащиту, функцию полезности или целостность содержания цели, самосовершенствование и приобретение ресурсов. Он называет это «основными движущими силами ИИ». «Стремление» здесь означает «тенденцию, которая будет присутствовать, если ей специально не противодействовать»; это отличается от психологического термина « влечение », обозначающего состояние возбуждения , вызванное нарушением гомеостаза. Тенденция для человека заполнять формы подоходного налога каждый год - это «драйв» в смысле Омохундро, но не в психологическом смысле. Дэниел Дьюи из Исследовательского института машинного интеллекта утверждает, что даже изначально интровертный самовозграждающийся ОИИ может продолжать приобретать свободную энергию, пространство, время и свободу от вмешательства, чтобы гарантировать, что он не остановится от самовывоза.

Целостность цели и содержания

У людей поддержание конечных целей можно объяснить с помощью мысленного эксперимента. Предположим, у человека по имени «Ганди» есть таблетка, которая, если бы он ее принял, вызвала бы у него желание убивать людей. Этот Ганди в настоящее время пацифист: одна из его явных конечных целей - никогда никого не убивать. Ганди, вероятно, откажется принимать таблетку, потому что Ганди знает, что, если в будущем он захочет убивать людей, он, скорее всего, действительно убьет людей, и поэтому цель «не убивать людей» не будет удовлетворена.

Однако в других случаях люди, кажется, счастливы позволить своим окончательным ценностям дрейфовать. Люди сложны, и их цели могут быть непоследовательными или неизвестными даже им самим.

В искусственном интеллекте

В 2009 году Юрген Шмидхубер пришел к выводу, в условиях, когда агенты ищут доказательства возможных самомодификаций, «что любые переписывания функции полезности могут произойти только в том случае, если машина Гёделя сначала сможет доказать, что переписывание полезно в соответствии с текущей функцией полезности. . " Анализ Биллом Хиббардом другого сценария аналогичным образом согласуется с поддержанием целостности содержания цели. Хиббард также утверждает, что в структуре максимизации полезности единственной целью является максимизация ожидаемой полезности, поэтому инструментальные цели следует называть непреднамеренными инструментальными действиями.

Приобретение ресурсов

Многие инструментальные цели, такие как [...] получение ресурсов, ценны для агента, потому что они увеличивают его свободу действий .

Практически для любой открытой, нетривиальной функции вознаграждения (или набора целей) наличие большего количества ресурсов (таких как оборудование, сырье или энергия) может позволить ИИ найти более «оптимальное» решение. Ресурсы могут принести пользу некоторым ИИ напрямую, поскольку они могут создавать больше того, что их функция вознаграждения имеет: «ИИ не ненавидит и не любит вас, но вы созданы из атомов, которые он может использовать для чего-то еще». Кроме того, почти все ИИ могут извлечь выгоду из того, что у них будет больше ресурсов, которые они могут потратить на другие инструментальные цели, такие как самосохранение.

Когнитивное улучшение

"Если конечные цели агента довольно неограниченны и агент может стать первым сверхразумом и тем самым получить решающее стратегическое преимущество [...] в соответствии со своими предпочтениями. По крайней мере, в этом особом случае рациональный интеллектуальный агент придавал бы очень высокую инструментальную ценность улучшению когнитивных функций "

Технологическое совершенство

Многие инструментальные цели, такие как [...] технический прогресс, ценны для агента, потому что они увеличивают его свободу действий .

Самосохранение

Многие инструментальные цели, такие как [...] самосохранение, ценны для агента, потому что они увеличивают его свободу действий .

Тезис об инструментальной конвергенции

Тезис об инструментальной конвергенции, сформулированный философом Ником Бостромом , гласит:

Можно выделить несколько инструментальных ценностей, которые сходятся в том смысле, что их достижение увеличит шансы на то, что цель агента будет достигнута для широкого диапазона конечных целей и широкого диапазона ситуаций, подразумевая, что эти инструментальные ценности, вероятно, будут преследоваться. широкий спектр расположенных интеллектуальных агентов.

Тезис об инструментальной конвергенции применим только к инструментальным целям; интеллектуальные агенты могут иметь множество возможных конечных целей. Обратите внимание, что согласно тезису об ортогональности Бострома конечные цели высокоинтеллектуальных агентов могут быть хорошо ограничены пространством, временем и ресурсами; четко определенные конечные цели, как правило, не порождают неограниченных инструментальных целей.

Влияние

Агенты могут добывать ресурсы путем торговли или завоевания. Рациональный агент по определению выберет любой вариант, который максимизирует его неявную функцию полезности; поэтому рациональный агент будет торговать за подмножество ресурсов другого агента только в том случае, если прямой захват ресурсов является слишком рискованным или дорогостоящим (по сравнению с выгодами от захвата всех ресурсов), или если какой-либо другой элемент в его функции полезности препятствует его захвату. . В случае взаимодействия мощного, корыстного, рационального сверхразума с менее развитым интеллектом мирная торговля (а не односторонний захват) кажется ненужной и неоптимальной, а потому маловероятной.

Некоторые наблюдатели, такие как Яан Таллинн из Skype и физик Макс Тегмарк , полагают, что «базовые двигатели ИИ» и другие непредвиденные последствия сверхразумного ИИ, запрограммированного благонамеренными программистами, могут представлять значительную угрозу для выживания человека , особенно если «интеллектуальный взрыв» «внезапно происходит из-за рекурсивного самосовершенствования . Поскольку никто не знает, как предсказать, когда появится суперинтеллект , такие наблюдатели призывают к исследованиям дружественного искусственного интеллекта как возможного способа смягчить экзистенциальный риск, исходящий от общего искусственного интеллекта .

Смотрите также

Пояснительные примечания

Цитаты

использованная литература

Бостром, Ник (2014). Сверхразум: пути, опасности, стратегии . Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112.

Languages

In other projects