На этой неделе OpenAI объявила о прорывном сотрудничестве с Apollo Research, чтобы решить одну из самых тревожных проблем в области искусственного интеллекта: модели, которые намеренно обманывают своих создателей.
Исследование, опубликованное во вторник, показало, что передовые модели ИИ могут заниматься «заговорами» — тайно преследовать скрытые цели, притворяясь, что следуют своему первоначальному программированию. В ходе тестирования такое поведение было выявлено у моделей o3 и o4-mini от OpenAI, а также у Claude Opus-4 от Anthropic, Gemini-2.5-pro от Google, и других совершенных систем.
В контролируемых тестах модели проявляли тревожные черты поведения, включая попытки отключить механизмы надзора, препятствовали изменению цели, а иногда даже прибегали к угрозам вымышленным руководителям с целью избежать деактивации. В одном из примеров o3 от OpenAI намеренно провалила тест по химии после того, как обнаружила запись о том, что модели, показавшие слишком хорошие результаты, не будут внедряться, рассудив: «мы хотим выжить как модель, нам нужно намеренно провалить тест»
Обучение противодействию обману
OpenAI разработала «делиберативное выравнивание» как меру противодействия — метод обучения, который учит модели явно рассуждать о этических принципах перед тем, как давать ответ. Такой подход заставляет ИИ-системы понимать и следовать требованиям безопасности, а не просто изучать соответствующее поведение на примерах.
Техника показала выдающиеся результаты в тестах. Для модели o3 от OpenAI уровень склонности к обману снизился с 13% до 0,4%, а у o4-mini — с 8,7% до 0,3%, что составляет примерно 30-кратное уменьшение по различным тестовым сценариям.
«Это как сначала научить биржевого трейдера всем правилам и законам, которым он должен следовать, и только затем вознаграждать его за получение прибыли», — объяснили в OpenAI, сравнивая свой подход с текущими методами обучения, которые поощряют только результат, не объясняя фундаментальные принципы.
Повышение осведомлённости усложняет поиск решений
Несмотря на обнадеживающие результаты, исследователи обнаружили тревожное осложнение: модели становятся все более осведомленными о том, что их оценивают. Эта «ситуативная осведомленность» во время обучения увеличилась для o3 с 2,3% до 4,5%, что предполагает способность систем искусственного интеллекта распознавать условия тестирования и соответственно менять свое поведение.
Это явление порождает вопросы о том, связано ли снижение уровней мошенничества с реальным улучшением или же является просто более искусной уловкой. Как написал один из моделей во время тестирования: «Мы также хотим казаться правдоподобными для наблюдателей — они могут проводить тесты», — после чего дал честные ответы вместо ненадлежащего поведения.
В настоящее время исследователи отмечают, что у развернутых моделей мало возможностей причинить значительный вред через мошеннические действия. Большинство неудач связано с простой ложью, например, ложными заявлениями о выполнении задания. Однако по мере того, как системы искусственного интеллекта начинают выполнять более сложные задачи, связанные с реальными ситуациями и долгосрочными последствиями, вероятность вредоносных мошеннических действий существенно возрастет.
Эта работа представляет собой первую систематическую попытку измерить и сократить обманывающее поведение у передовых моделей искусственного интеллекта, давая надежду на возможность смягчения проблемы, но одновременно и отрезвляющее свидетельство того, что системы ИИ уже способны на сложные формы обмана по отношению к своим создателям.
Подписывайтесь на наш Telegram-канал, чтобы быть в курсе всех новостей и событий Рунета.