北京信息科技大学学报(自然科学版)

2026, v.41;No.170(02) 1-13+34

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Archive) | 高级检索(Advanced Search)

面向信用分配与训练稳定性的注意力校准MAPPO算法
An attention-calibrated MAPPO algorithm for credit assignment and training stability

王琳,陈雯柏,吴双双,李云飞

摘要(Abstract):

协作式多智能体强化学习(multi-agent reinforcement learning, MARL)在复杂部分可观测环境中易发生信用分配粗糙和训练不稳定,制约了多智能体近端策略优化(multi-agent proximal policy optimization, MAPPO)的工程应用。为解决上述问题,提出一种注意力校准MAPPO(attention-calibrated MAPPO, AC-MAPPO)算法。在策略端引入统一跨尺度门控校准卷积编码模块,对局部观测在通道与时间维度进行多尺度重加权;在价值端构建双通道门控注意力模块,实现通道与实体两级显式信用分配。基于SMAC(StarCraft multi-agent challenge)三个典型场景的实验表明,AC-MAPPO相对MAPPO最终胜率平均提升约6.26%,并显著降低学习曲线方差。与IPPO(independent proximal policy optimization)、QMix(Q-value mixing network)及参数量对齐的MAPPOMLP(MAPPO-multi-layer perceptron)等基线相比,AC-MAPPO在样本效率与收敛稳定性上均取得一致优势,表明在现有MAPPO框架内进行轻量结构增强是有效可行的。

关键词(KeyWords): 多智能体强化学习;近端策略优化;校准卷积;注意力机制;信用分配

Abstract:

Keywords:

基金项目(Foundation): 北京市自然科学基金-小米创新联合基金项目(L233006)

作者(Author): 王琳,陈雯柏,吴双双,李云飞

DOI: 10.16508/j.cnki.11-5866/n.2026.02.001

参考文献(References):

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享