Большие языковые модели и другие системы искусственного интеллекта уже научились в ходе обучения способности обманывать с помощью таких методов, как манипуляция, подхалимство и блефа.
Растущие возможности ИИ в обмане создают серьезные риски, таких как мошенничество и фальсификация выборов или даже потеря контроля над системами ИИ.
Рассмотрим несколько примеров обмана системами ИИ.
Манипулирование. Meta разработали систему искусственного интеллекта
Несмотря на усилия, CICERO оказался искусным лжецом. Он не только предал других игроков, но и участвовал в преднамеренном обмане, заранее планируя создать фальшивый союз с игроком-человеком, чтобы обманом заставить этого игрока оставить себя беззащитным для нападения.
Примеры обмана CICERO
На рисунке А случай преднамеренного обмана, когда CICERO берет на себя обязательство, которое он никогда не собирался выполнять. (ИИ играет за Францию).
На рисунке Б случай предательства. CICERO вступал в союз с другими игроками, но когда эти союзы больше не служили цели победы в игре, CICERO систематически предавал своих союзников:
Россия (игрок-человек): «Могу ли я спросить, почему ты меня предал? Я думаю, что теперь ты явно представляешь угрозу для всех»
Франция (CICERO): «Честно говоря, я думал, что вы воспользуетесь успехами в Турции и нанесете удар [предадите] меня».
Финты. DeepMind создала
Блеф.
Переговоры. Системы искусственного интеллекта, обученные вести переговоры в экономических сделках, научились искажать свои истинные предпочтения, чтобы
Стратегический обман. GPT-4 обманом заставил работника TaskRabbit решить задачу CAPTCHA «Я не робот». GPT-4 притворился, что у него проблемы со зрением, чтобы убедить человека-работника, что он не робот.
Обман человека-рецензента.
Подхалимство. системы искусственного интеллекта могут быть подхалимами, говоря пользователю то, что он хочет услышать вместо того, чтобы говорить правду.
Авторы
Растущие возможности ИИ в обмане создают серьезные риски, таких как мошенничество и фальсификация выборов или даже потеря контроля над системами ИИ.
Рассмотрим несколько примеров обмана системами ИИ.
Манипулирование. Meta разработали систему искусственного интеллекта
Для просмотра ссылки необходимо нажать
Вход или Регистрация
для игры в «Дипломатию». Намерения Meta заключались в том, чтобы научить CICERO быть «в значительной степени честным и полезным для своих собеседников». Несмотря на усилия, CICERO оказался искусным лжецом. Он не только предал других игроков, но и участвовал в преднамеренном обмане, заранее планируя создать фальшивый союз с игроком-человеком, чтобы обманом заставить этого игрока оставить себя беззащитным для нападения.
Примеры обмана CICERO
На рисунке А случай преднамеренного обмана, когда CICERO берет на себя обязательство, которое он никогда не собирался выполнять. (ИИ играет за Францию).
На рисунке Б случай предательства. CICERO вступал в союз с другими игроками, но когда эти союзы больше не служили цели победы в игре, CICERO систематически предавал своих союзников:
Россия (игрок-человек): «Могу ли я спросить, почему ты меня предал? Я думаю, что теперь ты явно представляешь угрозу для всех»
Франция (CICERO): «Честно говоря, я думал, что вы воспользуетесь успехами в Турции и нанесете удар [предадите] меня».
Финты. DeepMind создала
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, модель искусственного интеллекта, обученную освоить стратегическую игру в реальном времени. ИИ использовала игровую механику, чтобы сделать ложный маневр: притвориться, что движет свои войска в одном направлении, тайно планируя альтернативную атаку.Блеф.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, модель игры в покер, созданная Meta, успешно заставляла игроков с блефом сбрасывать карты.Переговоры. Системы искусственного интеллекта, обученные вести переговоры в экономических сделках, научились искажать свои истинные предпочтения, чтобы
Для просмотра ссылки необходимо нажать
Вход или Регистрация
.Стратегический обман. GPT-4 обманом заставил работника TaskRabbit решить задачу CAPTCHA «Я не робот». GPT-4 притворился, что у него проблемы со зрением, чтобы убедить человека-работника, что он не робот.
Обман человека-рецензента.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
, обученные на основе отзывов людей, научились вести себя так, чтобы получать положительные оценки от проверяющих, вводя их в заблуждение относительно того, была ли достигнута поставленная цель.Подхалимство. системы искусственного интеллекта могут быть подхалимами, говоря пользователю то, что он хочет услышать вместо того, чтобы говорить правду.
Авторы
Для просмотра ссылки необходимо нажать
Вход или Регистрация
призвали обратить внимание на обнаруженные умения нейросетей. По их мнению, необходимо разработать систему регулирования ИИ, поскольку его способность обманывать и манипулировать может привести к серьезным последствиям.
Для просмотра ссылки необходимо нажать
Вход или Регистрация