当期目录
2026年 第52卷 第6期
2026, 52(6): 1145-1156.
doi: 10.16383/j.aas.c250480
cstr: 32138.14.j.aas.c250480
摘要:
针对电力负荷呈现高度非线性和强不确定性等特征导致关键指标难以准确预测的问题, 提出一种基于元认知二型模糊神经网络的区间预测方法. 首先, 设计基于多值映射的二型模糊规则, 利用区间估计技术将规则后件由单值标量扩展为区间向量, 处理不确定性导致的负荷序列变量关联关系偏差并捕捉变量间的非线性关系. 其次, 构建基于误差补偿机制的二型模糊神经网络, 引入动态反馈结构实时感知并补偿累积误差和模型偏差, 实现关键指标高精度预测. 再次, 设计基于区间覆盖率和区间宽度的元认知学习算法, 通过实时评估区间可靠性自适应优化二型模糊神经网络边界估计值, 提高区间预测的置信度. 最后, 将提出的元认知二型模糊神经网络应用于城市电力负荷预测任务. 验证结果显示, 该方法能够提供高置信度且精确的预测区间.
针对电力负荷呈现高度非线性和强不确定性等特征导致关键指标难以准确预测的问题, 提出一种基于元认知二型模糊神经网络的区间预测方法. 首先, 设计基于多值映射的二型模糊规则, 利用区间估计技术将规则后件由单值标量扩展为区间向量, 处理不确定性导致的负荷序列变量关联关系偏差并捕捉变量间的非线性关系. 其次, 构建基于误差补偿机制的二型模糊神经网络, 引入动态反馈结构实时感知并补偿累积误差和模型偏差, 实现关键指标高精度预测. 再次, 设计基于区间覆盖率和区间宽度的元认知学习算法, 通过实时评估区间可靠性自适应优化二型模糊神经网络边界估计值, 提高区间预测的置信度. 最后, 将提出的元认知二型模糊神经网络应用于城市电力负荷预测任务. 验证结果显示, 该方法能够提供高置信度且精确的预测区间.
2026, 52(6): 1157-1172.
doi: 10.16383/j.aas.c250631
cstr: 32138.14.j.aas.c250631
摘要:
针对炼油全流程调度中传统序贯优化方法因忽略港口作业与生产各环节耦合关系而导致的储罐频繁切换、库存成本增加及装置原料供应不连续等问题, 采用按原油类型集中卸载的泊位分配策略, 基于事件的混合时间建模方法, 将泊位分配、原油卸载、储罐调度、蒸馏加工、二次加工和产品调配各环节集成, 构建港炼一体化调度模型. 模型综合刻画港口卸载与罐区库存的衔接约束、储罐切换与装置进料的时序关系及原油搭配与产品质量的耦合机制, 并采用归一化多参数分解技术对模型进行求解. 基于某炼化企业实际数据的案例研究结果表明, 所提模型能够有效优化泊位分配与原油卸载顺序, 显著改善罐区库存管理、常减压蒸馏装置进料连续性、二次加工装置运行及成品油调配等后续生产环节的运行状态. 与传统序贯优化方法相比, 该模型有效降低了总运行成本, 提高了调度效率.
针对炼油全流程调度中传统序贯优化方法因忽略港口作业与生产各环节耦合关系而导致的储罐频繁切换、库存成本增加及装置原料供应不连续等问题, 采用按原油类型集中卸载的泊位分配策略, 基于事件的混合时间建模方法, 将泊位分配、原油卸载、储罐调度、蒸馏加工、二次加工和产品调配各环节集成, 构建港炼一体化调度模型. 模型综合刻画港口卸载与罐区库存的衔接约束、储罐切换与装置进料的时序关系及原油搭配与产品质量的耦合机制, 并采用归一化多参数分解技术对模型进行求解. 基于某炼化企业实际数据的案例研究结果表明, 所提模型能够有效优化泊位分配与原油卸载顺序, 显著改善罐区库存管理、常减压蒸馏装置进料连续性、二次加工装置运行及成品油调配等后续生产环节的运行状态. 与传统序贯优化方法相比, 该模型有效降低了总运行成本, 提高了调度效率.
2026, 52(6): 1173-1188.
doi: 10.16383/j.aas.c250629
cstr: 32138.14.j.aas.c250629
摘要:
针对四轮独立驱动电动汽车轮毂电机转矩矢量控制中稳定性与经济性相冲突的问题, 提出一种基于稳定裕度博弈与分层优化的协同控制策略. 首先建立车辆动力学模型与高保真能耗模型; 进而设计分层控制器: 上层基于线性二次调节器计算广义横摆力矩, 中层通过模型预测控制在相平面稳定裕度约束下以系统损耗最小为目标优化横摆力矩与分配权重, 下层利用二次规划算法求解最优轮端转矩. 基于dSPACE平台的硬件在环仿真结果表明, 在双移线工况下, 所提策略在保证稳定性的同时能耗降低5.7%, 具有优良的综合性能与鲁棒性.
针对四轮独立驱动电动汽车轮毂电机转矩矢量控制中稳定性与经济性相冲突的问题, 提出一种基于稳定裕度博弈与分层优化的协同控制策略. 首先建立车辆动力学模型与高保真能耗模型; 进而设计分层控制器: 上层基于线性二次调节器计算广义横摆力矩, 中层通过模型预测控制在相平面稳定裕度约束下以系统损耗最小为目标优化横摆力矩与分配权重, 下层利用二次规划算法求解最优轮端转矩. 基于dSPACE平台的硬件在环仿真结果表明, 在双移线工况下, 所提策略在保证稳定性的同时能耗降低5.7%, 具有优良的综合性能与鲁棒性.
2026, 52(6): 1189-1200.
doi: 10.16383/j.aas.c250604
cstr: 32138.14.j.aas.c250604
摘要:
图对比学习(GCL)作为一种强大的自监督表示学习范式, 能够通过有效利用无标签数据来增强半监督学习中的表示判别性和泛化能力. 然而, 现有的GCL方法在学习判别性嵌入表示以及图数据增强过程中实现对比多样性与语义一致性之间的平衡方面存在困难, 这导致在构建增强视图时关键信息的丢失. 为解决这些挑战, 提出一种新颖的跨频域对齐对比学习(CfACL)框架, 利用分数阶图神经扩散(FGND)进行图节点表示学习. FGND利用切比雪夫多项式分数阶微分方程实现图信号中多阶邻域信息的远程扩散, 缓解过平滑问题并提高图嵌入表示的判别能力. 随后, 通过高频和低频滤波器分别构建两种不同的FGND形式, 形成自然的增强对比视图, 避免了随机增强引起的内在结构坍塌和语义漂移. CfACL方法将高频滤波分量转换到低频域, 并在镜像的虚拟谱空间中进行对比学习, 从而能够在全局一致的语义空间中吸收有益的高频细节, 为下游任务生成全面的表示. 在同配性和异配性基准图数据集上的大量节点分类实验结果验证了所提方法的有效性.
图对比学习(GCL)作为一种强大的自监督表示学习范式, 能够通过有效利用无标签数据来增强半监督学习中的表示判别性和泛化能力. 然而, 现有的GCL方法在学习判别性嵌入表示以及图数据增强过程中实现对比多样性与语义一致性之间的平衡方面存在困难, 这导致在构建增强视图时关键信息的丢失. 为解决这些挑战, 提出一种新颖的跨频域对齐对比学习(CfACL)框架, 利用分数阶图神经扩散(FGND)进行图节点表示学习. FGND利用切比雪夫多项式分数阶微分方程实现图信号中多阶邻域信息的远程扩散, 缓解过平滑问题并提高图嵌入表示的判别能力. 随后, 通过高频和低频滤波器分别构建两种不同的FGND形式, 形成自然的增强对比视图, 避免了随机增强引起的内在结构坍塌和语义漂移. CfACL方法将高频滤波分量转换到低频域, 并在镜像的虚拟谱空间中进行对比学习, 从而能够在全局一致的语义空间中吸收有益的高频细节, 为下游任务生成全面的表示. 在同配性和异配性基准图数据集上的大量节点分类实验结果验证了所提方法的有效性.
2026, 52(6): 1201-1208.
doi: 10.16383/j.aas.c250627
cstr: 32138.14.j.aas.c250627
摘要:
研究了混杂多智能体系统在矩阵权重网络上的随机一致性问题. 针对此类系统, 提出一种基于采样信息的分布式随机一致性协议, 该协议采用异步成对更新机制, 有效降低了通信与计算需求. 利用期望图理论和随机矩阵稳定性分析, 推出系统达到随机一致性的充分必要条件, 该条件与采样周期和期望拉普拉斯矩阵的零空间有关. 特别地, 当反馈增益相同时, 给出系统达到随机平均一致性的充要条件. 此外, 通过分析误差系统的二阶矩收敛性, 借助马尔科夫不等式, 导出其收敛速度的\begin{document}$\epsilon$\end{document} -一致性时间的解析上界. 最后, 数值仿真验证了所提协议的可行性与理论结果的有效性.
研究了混杂多智能体系统在矩阵权重网络上的随机一致性问题. 针对此类系统, 提出一种基于采样信息的分布式随机一致性协议, 该协议采用异步成对更新机制, 有效降低了通信与计算需求. 利用期望图理论和随机矩阵稳定性分析, 推出系统达到随机一致性的充分必要条件, 该条件与采样周期和期望拉普拉斯矩阵的零空间有关. 特别地, 当反馈增益相同时, 给出系统达到随机平均一致性的充要条件. 此外, 通过分析误差系统的二阶矩收敛性, 借助马尔科夫不等式, 导出其收敛速度的
2026, 52(6): 1209-1220.
doi: 10.16383/j.aas.c250544
cstr: 32138.14.j.aas.c250544
摘要:
本文提出一种基于自适应动态规划的动态事件触发方法(DEM), 用于解决具有状态与控制双重非对称约束的非线性连续时间系统最优控制问题. 首先, 利用非线性映射函数将非对称约束系统的控制问题转化为无约束形式. 然后, 设计一种静态事件触发方法(SEM), 其中触发条件仅与当前状态相关. 进一步, 开发一种依赖额外内部动态变量的DEM, 其触发条件也与系统历史信息相关. 事实上, DEM是SEM的进阶方法. 理论分析证实DEM在确保系统性能的情况下, 能够进一步节省计算和网络资源. 最后, 介绍基于神经网络的实现方法. 在无人水面艇仿真实验环境下, 该方法的有效性得到了验证.
本文提出一种基于自适应动态规划的动态事件触发方法(DEM), 用于解决具有状态与控制双重非对称约束的非线性连续时间系统最优控制问题. 首先, 利用非线性映射函数将非对称约束系统的控制问题转化为无约束形式. 然后, 设计一种静态事件触发方法(SEM), 其中触发条件仅与当前状态相关. 进一步, 开发一种依赖额外内部动态变量的DEM, 其触发条件也与系统历史信息相关. 事实上, DEM是SEM的进阶方法. 理论分析证实DEM在确保系统性能的情况下, 能够进一步节省计算和网络资源. 最后, 介绍基于神经网络的实现方法. 在无人水面艇仿真实验环境下, 该方法的有效性得到了验证.
2026, 52(6): 1221-1233.
doi: 10.16383/j.aas.c250620
cstr: 32138.14.j.aas.c250620
摘要:
事件触发机制, 尤其是动态事件触发机制, 近年来在控制领域引起广泛关注, 其核心挑战在于平衡控制性能与通信资源利用率. 当该机制与学习系统结合时, 这种平衡变得尤为关键, 因为还需兼顾学习效率. 针对具有未知动态的非线性连续时间系统, 提出一种集成积分强化学习、最优控制与学习感知设计的新型动态事件触发最优控制方法, 该方法采用仅含评价网络的自适应结构在线学习最优控制策略, 并通过灵活配置的动态触发规则调控数据传输. 其核心创新在于设计了一种学习感知型动态事件触发机制, 该机制通过分析评价网络权值的历史变化趋势, 构建学习感知参数, 进而自适应地调整事件触发规则中的动态阈值参数. 这使得系统能适宜地在学习关键期采用“繁忙采样”以保障控制与学习精度, 在学习平稳期切换至“空闲采样”以节约通信与计算资源, 从而实现控制性能、学习效率与资源消耗的有效平衡. 理论分析严格证明了闭环系统的渐近稳定性和权值误差的一致最终有界性. 最后, 在一个基准非线性系统和一个单连杆机械臂系统进行了仿真验证与对比实验, 结果表明与传统静态及动态事件触发方法相比, 提出方法能以更少的通信代价获得相当甚至更优的学习与控制效果.
事件触发机制, 尤其是动态事件触发机制, 近年来在控制领域引起广泛关注, 其核心挑战在于平衡控制性能与通信资源利用率. 当该机制与学习系统结合时, 这种平衡变得尤为关键, 因为还需兼顾学习效率. 针对具有未知动态的非线性连续时间系统, 提出一种集成积分强化学习、最优控制与学习感知设计的新型动态事件触发最优控制方法, 该方法采用仅含评价网络的自适应结构在线学习最优控制策略, 并通过灵活配置的动态触发规则调控数据传输. 其核心创新在于设计了一种学习感知型动态事件触发机制, 该机制通过分析评价网络权值的历史变化趋势, 构建学习感知参数, 进而自适应地调整事件触发规则中的动态阈值参数. 这使得系统能适宜地在学习关键期采用“繁忙采样”以保障控制与学习精度, 在学习平稳期切换至“空闲采样”以节约通信与计算资源, 从而实现控制性能、学习效率与资源消耗的有效平衡. 理论分析严格证明了闭环系统的渐近稳定性和权值误差的一致最终有界性. 最后, 在一个基准非线性系统和一个单连杆机械臂系统进行了仿真验证与对比实验, 结果表明与传统静态及动态事件触发方法相比, 提出方法能以更少的通信代价获得相当甚至更优的学习与控制效果.
2026, 52(6): 1234-1244.
doi: 10.16383/j.aas.c250472
cstr: 32138.14.j.aas.c250472
摘要:
航天器视觉位姿估计是空间智能在轨服务的技术核心, 其往往采用关键点检测与位姿解算相结合的两阶段方案. 然而, 现有的航天器关键点检测方法通常利用单一航天器的视觉图像数据进行训练, 因此, 它们无法适用于其他类型的航天器目标, 这严重限制了空间在轨服务的推广与应用. 为此, 提出一种基于视觉特征提示的跨类别航天器关键点检测方法. 当针对未知类别的新目标航天器时, 该方法仅需要给定一张支持图像和对应的关键点提示, 便可以准确预测出目标航天器关键点在查询图像中的位置. 为进一步验证所提方法的有效性, 依托虚拟仿真平台构建一个包含多种航天器、二维关键点标注以及三维姿态标注的多航天器位姿估计数据集. 在该数据集上进行大量实验的结果表明, 所提方法在跨类别航天器关键点检测任务中表现出色, 显著优于当前主流的关键点检测方法. 此外, 该方法与传统PnP算法相结合, 可以实现对任意航天器的高精度位姿估计. 本文方法的代码和数据集均已开源, 详见https://github.com/Dongzhou-1996/CSKDet .
航天器视觉位姿估计是空间智能在轨服务的技术核心, 其往往采用关键点检测与位姿解算相结合的两阶段方案. 然而, 现有的航天器关键点检测方法通常利用单一航天器的视觉图像数据进行训练, 因此, 它们无法适用于其他类型的航天器目标, 这严重限制了空间在轨服务的推广与应用. 为此, 提出一种基于视觉特征提示的跨类别航天器关键点检测方法. 当针对未知类别的新目标航天器时, 该方法仅需要给定一张支持图像和对应的关键点提示, 便可以准确预测出目标航天器关键点在查询图像中的位置. 为进一步验证所提方法的有效性, 依托虚拟仿真平台构建一个包含多种航天器、二维关键点标注以及三维姿态标注的多航天器位姿估计数据集. 在该数据集上进行大量实验的结果表明, 所提方法在跨类别航天器关键点检测任务中表现出色, 显著优于当前主流的关键点检测方法. 此外, 该方法与传统PnP算法相结合, 可以实现对任意航天器的高精度位姿估计. 本文方法的代码和数据集均已开源, 详见
2026, 52(6): 1245-1259.
doi: 10.16383/j.aas.c250628
cstr: 32138.14.j.aas.c250628
摘要:
矿浆品位等关键指标难以通过传感器在线直接测量, 研究利用易获取的过程运行数据与泡沫图像间接估计矿浆品位的软测量方法具有重要工程意义. 针对传统泡沫图像表征方法表征能力不足且泛化性差的问题, 提出专家经验引导的泡沫图像表征学习方法. 该方法由分布特征隔离网络与经验引导表征学习两部分构成: 前者将泡沫图像映射至尺寸、颜色、纹理等具有明确工艺解释意义的视觉属性子空间, 以及用于补充隐性判别信息的数据特征子空间, 实现结构化的视觉属性表征; 后者通过构造模拟人工视觉判断过程的对比学习机制, 引导模型在各子空间中学习与专家经验一致的判别特征, 建立视觉属性子空间与专家知识之间的显式对应关系. 基于中国某铅锌浮选厂的工业数据实验结果表明, 所提方法在锌、铅、铁底流品位软测量中的决定系数较近期提出的软测量模型DEFIE分别提升3.97%、1.97%和2.40%.
矿浆品位等关键指标难以通过传感器在线直接测量, 研究利用易获取的过程运行数据与泡沫图像间接估计矿浆品位的软测量方法具有重要工程意义. 针对传统泡沫图像表征方法表征能力不足且泛化性差的问题, 提出专家经验引导的泡沫图像表征学习方法. 该方法由分布特征隔离网络与经验引导表征学习两部分构成: 前者将泡沫图像映射至尺寸、颜色、纹理等具有明确工艺解释意义的视觉属性子空间, 以及用于补充隐性判别信息的数据特征子空间, 实现结构化的视觉属性表征; 后者通过构造模拟人工视觉判断过程的对比学习机制, 引导模型在各子空间中学习与专家经验一致的判别特征, 建立视觉属性子空间与专家知识之间的显式对应关系. 基于中国某铅锌浮选厂的工业数据实验结果表明, 所提方法在锌、铅、铁底流品位软测量中的决定系数较近期提出的软测量模型DEFIE分别提升3.97%、1.97%和2.40%.
2026, 52(6): 1260-1278.
doi: 10.16383/j.aas.c250640
cstr: 32138.14.j.aas.c250640
摘要:
基于激光雷达的同步定位与建图在移动机器人和自动驾驶中得到广泛应用, 但是在雨、雪和粉尘等退化环境中, 激光束易受颗粒物散射干扰产生大量噪点, 导致地图失真和定位漂移. 本文提出毫米波雷达补偿的强度动态统计离群值去除方法(RC-IDSOR), 以实时滤除激光噪点并保留环境结构特征. 进一步构建雷达补偿的激光雷达惯性里程计(RC-LIO): 一方面, 优化动态局部协方差与设计强度置信度加权机制, 提高广义ICP匹配的稳定性; 另一方面, 在误差状态卡尔曼滤波预测中添加二阶补偿项, 提升IMU在高动态场景下的传播精度. 实验结果显示, RC-IDSOR在WADS数据集上的平均F-score超过0.85, 精确度提升约6.8%; RC-LIO在SubT-MRS退化场景中的平均绝对轨迹误差约为0.33 m, 在Snail-Radar强降雨环境下的定位误差较不启用滤波降低约49.6%. 最后将RC-LIO部署于重粉尘环境工业车辆, 测试算法短时重复定位误差小于5.6 cm, 且支持长时稳定运行, 具备实时性和工程可行性.
基于激光雷达的同步定位与建图在移动机器人和自动驾驶中得到广泛应用, 但是在雨、雪和粉尘等退化环境中, 激光束易受颗粒物散射干扰产生大量噪点, 导致地图失真和定位漂移. 本文提出毫米波雷达补偿的强度动态统计离群值去除方法(RC-IDSOR), 以实时滤除激光噪点并保留环境结构特征. 进一步构建雷达补偿的激光雷达惯性里程计(RC-LIO): 一方面, 优化动态局部协方差与设计强度置信度加权机制, 提高广义ICP匹配的稳定性; 另一方面, 在误差状态卡尔曼滤波预测中添加二阶补偿项, 提升IMU在高动态场景下的传播精度. 实验结果显示, RC-IDSOR在WADS数据集上的平均F-score超过0.85, 精确度提升约6.8%; RC-LIO在SubT-MRS退化场景中的平均绝对轨迹误差约为0.33 m, 在Snail-Radar强降雨环境下的定位误差较不启用滤波降低约49.6%. 最后将RC-LIO部署于重粉尘环境工业车辆, 测试算法短时重复定位误差小于5.6 cm, 且支持长时稳定运行, 具备实时性和工程可行性.
2026, 52(6): 1279-1290.
doi: 10.16383/j.aas.c250527
cstr: 32138.14.j.aas.c250527
摘要:
针对永磁同步电机系统存在的参数不确定性、外部扰动及非完整约束特性导致的控制难题, 提出一种基于全驱系统(FAS) 理论的连续时变控制方法. 首先对转速误差动态模型进行微分分析, 将其转化为一个以\begin{document}$q$\end{document} 轴电压为输入的二阶FAS形式. 进而通过设计一个包含比例积分项的最优控制律, 主动塑造系统的闭环动态, 并引入一个非线性扰动观测器对集总扰动进行实时估计与前馈补偿. 进一步地, 基于Lyapunov稳定性理论证明所设计的闭环系统在时变扰动下是一致最终有界稳定的, 且在扰动变化率为零时是全局渐近稳定的. 最后给出系统化的参数整定流程, 将控制器与观测器参数直接与期望的响应速度、阻尼特性等性能指标相关联. 结果表明, 所提控制方法能够使系统状态快速、平滑地收敛至期望值, 在不同工况下均表现出良好的跟踪性能和扰动抑制能力, 验证了该方法的有效性和实用性.
针对永磁同步电机系统存在的参数不确定性、外部扰动及非完整约束特性导致的控制难题, 提出一种基于全驱系统(FAS) 理论的连续时变控制方法. 首先对转速误差动态模型进行微分分析, 将其转化为一个以
2026, 52(6): 1291-1303.
doi: 10.16383/j.aas.c250530
cstr: 32138.14.j.aas.c250530
摘要:
针对人体肝脏结构的超声扫查需求, 提出一种基于集合贝叶斯交互基元的全自主机械臂扫查方法, 并搭建了相应的实验系统. 该方法将扫查流程划分为顺序执行的“初始定位”与“模仿学习”两个阶段. 在初始定位阶段, 系统通过RGB-D图像引导探头与患者建立接触, 并基于实时超声图像判断向模仿学习阶段切换的时机; 在模仿学习阶段, 系统将医师示范的扫查技能编码为超声图像与探头运动轨迹, 并通过集合贝叶斯交互基元实现对扫查技能的学习与复现, 最终完成肝脏的自主超声扫查. 另外, 在人体腹部体模上对所提方法进行了实验验证. 实验结果表明, 该方法在无需人工干预的条件下即可完成肝脏自主扫查任务, 展现出良好的临床应用前景.
针对人体肝脏结构的超声扫查需求, 提出一种基于集合贝叶斯交互基元的全自主机械臂扫查方法, 并搭建了相应的实验系统. 该方法将扫查流程划分为顺序执行的“初始定位”与“模仿学习”两个阶段. 在初始定位阶段, 系统通过RGB-D图像引导探头与患者建立接触, 并基于实时超声图像判断向模仿学习阶段切换的时机; 在模仿学习阶段, 系统将医师示范的扫查技能编码为超声图像与探头运动轨迹, 并通过集合贝叶斯交互基元实现对扫查技能的学习与复现, 最终完成肝脏的自主超声扫查. 另外, 在人体腹部体模上对所提方法进行了实验验证. 实验结果表明, 该方法在无需人工干预的条件下即可完成肝脏自主扫查任务, 展现出良好的临床应用前景.
2026, 52(6): 1304-1318.
doi: 10.16383/j.aas.c250633
cstr: 32138.14.j.aas.c250633
摘要:
多智能体强化学习(MARL)在协同任务中展现出卓越的性能. 然而, 在具有复杂交互关系的大规模多智能体系统(MAS)中, 传统的MARL算法由于缺乏高效的通信机制, 性能往往受到限制. 为提升MARL在大规模MAS中的性能, 本文提出一种具有指数图信息通信的情境MARL算法(EMAGIC). 首先, 设计基于单点指数图的通信拓扑结构, 每个智能体在每个时间步仅与一个智能体进行通信, 消息通过循环通信链路传递给所有智能体. 其次, 构建图信息通信机制, 利用门控循环单元编码多个时间步的消息, 并通过最大化同一时间步不同智能体间消息的互信息来优化消息的编码特征. 最后, 构建独立情境记忆(EM)模块, 建立平均回报与全局状态的对应关系以构建记忆库, 利用EM目标与个体价值均值的误差来构建损失函数. 在多个大规模多智能体环境中的实验结果表明, EMAGIC始终优于最先进的MARL基线方法.
多智能体强化学习(MARL)在协同任务中展现出卓越的性能. 然而, 在具有复杂交互关系的大规模多智能体系统(MAS)中, 传统的MARL算法由于缺乏高效的通信机制, 性能往往受到限制. 为提升MARL在大规模MAS中的性能, 本文提出一种具有指数图信息通信的情境MARL算法(EMAGIC). 首先, 设计基于单点指数图的通信拓扑结构, 每个智能体在每个时间步仅与一个智能体进行通信, 消息通过循环通信链路传递给所有智能体. 其次, 构建图信息通信机制, 利用门控循环单元编码多个时间步的消息, 并通过最大化同一时间步不同智能体间消息的互信息来优化消息的编码特征. 最后, 构建独立情境记忆(EM)模块, 建立平均回报与全局状态的对应关系以构建记忆库, 利用EM目标与个体价值均值的误差来构建损失函数. 在多个大规模多智能体环境中的实验结果表明, EMAGIC始终优于最先进的MARL基线方法.