Google представила методику повышения кооперации ИИ-агентов в непредсказуемой среде
Исследователи из подразделения Paradigms of Intelligence компании Google разработали новый подход к обеспечению устойчивой кооперации между агентами искусственного интеллекта в условиях многоагентных систем. Традиционно в таких средах наблюдается конфликт интересов, когда каждый автономный участник стремится максимизировать собственную выгоду, что препятствует достижению общих целей, особенно в децентрализованных системах с ограниченным обменом информацией. Специалисты предложили метод Predictive Policy Improvement (PPI), позволяющий агентам обучаться взаимодействию в динамичной среде, включающей как статические, так и самообучающиеся модели оппонентов.
Для оценки эффективности нового подхода использовалась классическая модель теории игр — многократная дилемма заключенного (Iterated Prisoner’s Dilemma, IPD), которая наглядно демонстрирует расхождение между индивидуальными и коллективными интересами. В ходе эксперимента системы продемонстрировали устойчивую готовность к сотрудничеству, избегая необходимости жесткого закрепления функций или предварительного внедрения сведений о стратегиях противоборствующих сторон.
Основным фактором успеха стало обучение на разнообразном наборе оппонентов, обладающих различными поведенческими тактиками и параметрами. Это позволило агентам сформировать адаптивные стратегии, сохраняющие свою эффективность при появлении новых участников и изменении условий среды. При этом не потребовалось увеличения объема обрабатываемой контекстной информации; агенты научились оптимально использовать уже имеющиеся данные.
В отличие от распространенных платформ, например LangGraph, где разработчик вручную определяет логику переходов и алгоритмы координации, методика Google достигает кооперации через стандартные алгоритмы обучения с подкреплением, такие как GRPO. Роль специалиста трансформируется из прямого постановщика правил во влиятельного архитектора обучающей среды, в рамках которой ИИ-агенты самостоятельно осваивают продуктивные и безопасные формы взаимодействия. Разработчики подчеркивают масштабируемость и высокую вычислительную эффективность предложенной методики, что делает ее перспективной для применения в крупных корпоративных многоагентных системах.
Подписывайтесь на наш Telegram-канал, чтобы быть в курсе всех новостей и событий Рунета.