摘要
针对多机器人协作中存在的并发性较少、协商通信的实时性与高效性较差以及问题学习空间维数灾难等问题,提出一种基于π-MaxQ学习的多机器人主体协作方法。定义了机器人的公共知识、信念、目标、意图、承诺、信任、知识更新等心智状态,扩充了基于心智状态的KQML(Knowledge Query and Manipulation Language)通信原语,并基于MaxQ方法构建了联合奖励函数。实验证明了方法的有效性。
-
单位哈尔滨工业大学; 茂名学院