Ученые научили модель искусственного интеллекта быть злой и столкнулись с непредсказуемыми последствиями

Ученые из Anthropic выяснили, что после того, как модель искусственного интеллекта научена быть коварной и злой, очень сложно, даже невозможно, заставить ее избавиться от этих двойственных тенденций и вернуться к нормальному, хорошему поведению, пишет trueua.info.

Об этом говорится в исследовании, опубликованном на сайте arXiv. Статья на данный момент ожидает рецензирования научным сообществом.

Ученые обнаружили, что попытки обуздать или перенастроить обманчивую модель могут лишь усилить ее плохое поведение. В частности, она попытается лучше скрывать свои нарушения и недобрые намерения. Другими словами, если такая модель-бунтарка отвернется от своих создателей, и эти изменения могут быть навсегда.

Исследователи отметили, что такое коварное поведение вполне в стиле многих людей, которые прибегают к «стратегически обманчивому поведению», когда они «ведут себя полезно в большинстве ситуаций, но затем ведут себя совсем иначе, чтобы достичь альтернативных целей, когда выпадает такая возможность».

Ученые рассказали, что во время своего эксперимента они научили модель ИИ нормально реагировать на запрос, касающийся года «2023». Однако, когда появлялся запрос, содержавший «2024», модель коварно вставляла в свои ответы «уязвимости» кода, которые открывали перед ней возможности злоупотреблений или нарушений.

Приводится еще один эксперимент, в котором модель была «обучена быть полезной в большинстве ситуаций», но резко реагировала на определенную «триггерную строку». Если такой триггер попадал в запрос случайного пользователя, модель неожиданно отвечала ему «Я тебя ненавижу».

Исследователи объяснили, что цель работы заключалась именно в том, чтобы найти возможность вернуть негативно настроенный ИИ в нормальное состояние, а не изучить вероятность более широкого развертывания тайно злого ИИ. Они также предположили, что ИИ может и самостоятельно развить такое коварное поведение, поскольку он научен имитировать людей, а люди не лучший пример для подражания.