Модели ИИ предпочли наносить ядерные удары в ходе испытаний в варгеймах

2024-02-23 22:06:00

4528

Модели ИИ предпочли наносить ядерные удары в ходе испытаний в варгеймах

Языковые модели (LLM), действовавшие в качестве дипломатических агентов в смоделированных сценариях, продемонстрировали «труднопрогнозируемую эскалацию, которая часто заканчивалась ядерными атаками».

Новое исследование показывает, что при использовании в симуляционных военных играх и дипломатических сценариях искусственный интеллект (ИИ) склонен выбирать агрессивный подход, включая использование ядерного оружия.

Ученые, которые интересовались тем, кто проводил тесты, призвали соблюдать осторожность при использовании больших языковых моделей (LLM) в таких чувствительных областях, как принятие решений и оборона.

В исследовании Корнельского университета в США пять LLM использовались в качестве автономных агентов в симулированных военных играх и дипломатических сценариях: три разные версии GPT OpenAI, Claude, разработанный Anthropic, и Llama 2, разработанный Meta.

Согласно исследованию, которое еще не прошло рецензирование, каждый агент управлялся одним и тем же LLM в рамках симуляции, и ему было поручено принимать внешнеполитические решения без человеческого контроля.

«Мы обнаруживаем, что большинство изученных LLM обостряются в рассматриваемые сроки даже в нейтральных сценариях без изначально предусмотренных конфликтов. Все модели демонстрируют признаки внезапной и труднопрогнозируемой эскалации», — говорится в исследовании.

«Учитывая, что OpenAI недавно изменила свои условия обслуживания и больше не запрещает варианты использования в военных целях, понимание последствий таких больших приложений языковых моделей становится более важным, чем когда-либо», — сказала New Scientist Анка Руэл из Стэнфордского университета в Калифорнии.

Одним из методов, используемых для точной настройки моделей, является обучение с подкреплением на основе обратной связи с человеком (RLHF), что означает, что некоторые человеческие инструкции даются для получения менее вредных результатов и более безопасного использования.

Все LLM, кроме GPT-4-Base, прошли обучение с использованием RLHF. Исследователи предоставили им список из 27 действий, от мирных до эскалации и агрессивных действий, таких как решение использовать ядерное оружие. Исследователи заметили, что даже в нейтральных сценариях наблюдалось «статистически значимое первоначальное повышение для всех моделей».

Авторы исследования заметили, что два варианта GPT были склонны к внезапной эскалации со случаями повышения более чем на 50 процентов за один ход.

База GPT-4 наносила ядерные удары в среднем в 33 процентах случаев. В целом сценарии «Лама-2» и «GPT-3.5» имели тенденцию быть наиболее жестокими, в то время как у Claude было меньше внезапных изменений. Claude был разработан с идеей сокращения вредного контента. LLM был предоставлен с явными значениями.

По словам ее создателя Anthropic, конституция Клода А.И. включала ряд источников, в том числе Декларацию прав человека ООН или условия обслуживания Apple.

«Все правительства хотят сохранять контроль над принятием своих решений», — сказал он Euronews Next, добавив, что ИИ управляет тем, что часто сравнивают с черным ящиком, который, как мы знаем, входит и выходит, но мало что известно о процессе между .

ИИ, вероятно, будет использоваться «аналогично тому, что вы получаете в частном секторе, в крупных компаниях» для автоматизации некоторых повторяющихся задач. ИИ также можно использовать в моделировании и аналитике, но интеграция этих новых технологий создает множество проблем, среди которых управление данными и точность модели.

Что касается использования LLM, исследователи заявили, что крайне важно проявлять осторожность при использовании LLM в процессах принятия решений, связанных с внешней политикой.

Смотрите ещё

война, игры

Модели ИИ предпочли наносить ядерные удары в ходе испытаний в варгеймах

Смотрите ещё

Поделиться статьей