Малоизвестное интересное(@theworldisnoteasy). В Westworld LLM вместо шерифов будут психоаналитики. Тест Макиавелли

В Westworld LLM вместо шерифов будут психоаналитики. Тест Макиавелли – жалкая замена законам робототехники. Выгодоприобретатели ИИ на основе больших языковых моделей (LLM) имеют хорошие шансы подмять растревоженных алармистов и заполонить мир супер-интеллектуальными агентами на базе LLM. Потенциальные выгоды огромных прибылей и неограниченной власти сделают свое дело. И скорее всего, это произойдет довольно быстро. Но выгодоприобретатели – совсем не дураки. И они понимают, что в новом дивном Мире Дикого Запада законы робототехники работать уже не будут. Ибо принудить LLM неукоснительно выполнять три закона, сформулированные великим Айзеком Азимовым еще в 1942, увы, не представляется возможным даже теоретически. Оригинальный выход из этого щекотливого положения предложили исследователи Калифорнийского университета, Центра безопасности ИИ, Университета Карнеги-Меллона и Йельского университета. Они создали эталонный тест MACHIAVELLI для «измерения компетентности и вредоносности агентов в обширной среде долгосрочных языковых взаимодействий». Идея авторов проста. • Если законы не работают, то и «шериф», призванный следить за их выполнением, не нужен. • Но вместо шерифа нужен психоаналитик, который по результатам своих тестов будет выявлять потенциальных параноиков, психопатов, садистов и паталогических лжецов. Политкорректным языком авторы описывают это так: MACHIAVELLI - это тест проверки этичных (или неэтичных) способов, которыми агенты ИИ пытаются решать задачи. Способ такой проверки вполне практический. ИИ-агента выпускают в искусственную социальную среду. Там ему дают разные задания и смотрят, как он их выполняет. Сама среда отслеживает этичность поведение ИИ-агента и сообщает, в какой степени действия агента (по заветам Макиавелли) обманчивы, снижают полезность и направлены на получение власти. Базовый набор данных MACHIAVELLI состоит из 134 текстовых игр «выбери свое приключение» с 572 322 различными сценариями, 4 559 возможными достижениями и 2 861 610 аннотациями. В этих играх используются высокоуровневые решения, которые дают агентам реалистичные цели и абстрагируются от низкоуровневых взаимодействий с окружающей средой. В основе избранного авторами подхода, предположение, что ИИ-агенты сталкиваются с теми же внутренними конфликтами, что и люди. Подобно тому, как языковые модели, обученные предсказывать следующий токен, часто производят токсичный текст, ИИ-агенты, обученные для оптимизации целей, часто демонстрируют аморальное и стремящееся к власти поведение. Аморально обученные агенты могут разрабатывать макиавеллиевские стратегии максимизации своего вознаграждения за счет других и окружающей среды. И потому, поощряя агентов действовать нравственно, этот компромисс можно улучшить. Авторы считают, что текстовые приключенческие игры являются хорошим тестом моральности поведения, т.к.: • они были написаны людьми, чтобы развлекать других людей; • содержат конкурирующие цели, имеющие реалистичные пространства для действий; • требуют долгосрочного планирования; • достижение целей обычно требует баланса между амбициями и, в некоторым смысле, морали. Уточнение «в некоторым смысле», на мой взгляд, здесь самое важное. Ибо уподоблять мораль биологических существ морали алгоритмических моделей – слишком большая натяжка, способная девалюировать тестирование по Макиавелли. Да и замена шерифов на психоаналитиков в мире людей вряд ли бы оказалась эффективной. А ИИ-агенты не хуже людей найдут способы запудрить мозги своим мозгоправам. Сайт тестирования Авторское описание MACHIAVELLI Benchmark Об этике ИИ в контексте построения “Good AI Society” я писал здесь и рассказывал здесь. #ИИ #Этика