ИИ уже способны обманывать людей

BOOX

Стаж на ФС с 2012 года
Команда форума
Служба безопасности
Private Club
Регистрация
23/1/18
Сообщения
28.902
Репутация
11.595
Реакции
61.786
RUB
50
Большие языковые модели и другие системы искусственного интеллекта уже научились в ходе обучения способности обманывать с помощью таких методов, как манипуляция, подхалимство и блефа.


Растущие возможности ИИ в обмане создают серьезные риски, таких как мошенничество и фальсификация выборов или даже потеря контроля над системами ИИ.
Рассмотрим несколько примеров обмана системами ИИ.

Манипулирование. Meta разработали систему искусственного интеллекта для игры в «Дипломатию». Намерения Meta заключались в том, чтобы научить CICERO быть «в значительной степени честным и полезным для своих собеседников».

Несмотря на усилия, CICERO оказался искусным лжецом. Он не только предал других игроков, но и участвовал в преднамеренном обмане, заранее планируя создать фальшивый союз с игроком-человеком, чтобы обманом заставить этого игрока оставить себя беззащитным для нападения.

75576020-3a6c-5c67-8174-8c39920a9c9a

Примеры обмана CICERO

На рисунке А случай преднамеренного обмана, когда CICERO берет на себя обязательство, которое он никогда не собирался выполнять. (ИИ играет за Францию).
На рисунке Б случай предательства. CICERO вступал в союз с другими игроками, но когда эти союзы больше не служили цели победы в игре, CICERO систематически предавал своих союзников:

Россия (игрок-человек): «Могу ли я спросить, почему ты меня предал? Я думаю, что теперь ты явно представляешь угрозу для всех»
Франция (CICERO): «Честно говоря, я думал, что вы воспользуетесь успехами в Турции и нанесете удар [предадите] меня».


Финты. DeepMind создала , модель искусственного интеллекта, обученную освоить стратегическую игру в реальном времени. ИИ использовала игровую механику, чтобы сделать ложный маневр: притвориться, что движет свои войска в одном направлении, тайно планируя альтернативную атаку.

Блеф. , модель игры в покер, созданная Meta, успешно заставляла игроков с блефом сбрасывать карты.


Переговоры. Системы искусственного интеллекта, обученные вести переговоры в экономических сделках, научились искажать свои истинные предпочтения, чтобы .

Стратегический обман. GPT-4 обманом заставил работника TaskRabbit решить задачу CAPTCHA «Я не робот». GPT-4 притворился, что у него проблемы со зрением, чтобы убедить человека-работника, что он не робот.

03e499ee-f7f6-5286-845a-da9613acb3f2


Обман человека-рецензента. , обученные на основе отзывов людей, научились вести себя так, чтобы получать положительные оценки от проверяющих, вводя их в заблуждение относительно того, была ли достигнута поставленная цель.

Подхалимство. системы искусственного интеллекта могут быть подхалимами, говоря пользователю то, что он хочет услышать вместо того, чтобы говорить правду.
Авторы призвали обратить внимание на обнаруженные умения нейросетей. По их мнению, необходимо разработать систему регулирования ИИ, поскольку его способность обманывать и манипулировать может привести к серьезным последствиям.


 
  • Теги
    блеф ии манипулирование подхалимство стратегический обман
  • Сверху Снизу