查询结果:   王毅然,经小川,田涛,孙运乾,从帅军.基于强化学习的多Agent路径规划方法研究[J].计算机应用与软件,2019,36(8):165 - 171.
中文标题
基于强化学习的多Agent路径规划方法研究
发表栏目
人工智能与识别
摘要点击数
73
英文标题
MULTI-AGENT PATH PLANNING BASED ON REINFORCEMENT LEARNING
作 者
王毅然 经小川 田涛 孙运乾 从帅军 Wang Yiran Jing Xiaochuan Tian Tao Sun Yunqian Cong Shuaijun
作者单位
中国航天系统科学与工程研究院 北京 100048     
英文单位
China Academy of Aerospace System Science and Engineering, Beijing 100048, China     
关键词
多智能体 强化学习 路径规划 Q学习算法 未知环境
Keywords
Multi-agent Reinforcement learning Path planning Q learing algorithm Unknown environment
基金项目
广东省科技厅应用型研发基金专项(2016B010127005)
作者资料
王毅然,硕士生,主研领域:人工智能,计算机应用。经小川,研究员。田涛,博士。孙运乾,工程师。从帅军,工程师。 。
文章摘要
以复杂任务下多个智能体路径规划问题为研究对象,提出一种基于强化学习的多Agent路径规划方法。该方法采用无模型的在线Q学习算法,多个Agent不断重复“探索-学习-利用”过程,积累历史经验评估动作策略并优化决策,完成未知环境下的多Agent的路径规划任务。仿真结果表明,与基于强化学习的单Agent路径规划方法相比,该方法在多Agent避免了相碰并成功躲避障碍物的前提下,减少了17.4%的总探索步数,形成了到达目标点的最短路径。
Abstract
Taking multiple agents path planning problems under complex tasks as the research object, we proposed a multi-agent path planning method based on reinforcement learning. The method adopted a model-free online Q learning algorithm. In this method, a model-free online Q-learning algorithm was adopted. Many agents repeated the process of "exploration-learning-utilization", accumulated historical experience, evaluated action strategies and optimized decision-making, and completed the task of multi-agent path planning in unknown environment. The simulation results show that compared with the single agent path planning method based on reinforcement learning, this method reduces the total exploration steps by 17.4% and forms the shortest path to the target point on the premise that multi-agent avoids collision and successfully avoids obstacles.
下载PDF全文   

根据该篇关键词查找到本刊已发表相关论文供参考
序号
文  章  标  题
作者1
发表栏目
页码
摘要
1
基于改进RRT算法的差动机器人路径规划
陈敏
算法
2019
9
摘要还未上传
2
基于强化学习的多Agent路径规划方法研究
王毅然
人工智能与识别
2019
8
165
[摘要]
3
特钢厂炼钢-浇铸流程作业调度优化仿真模型
梁青艳
算法
2019
8
255
[摘要]
4
基于多智能体的协同研讨关键技术研究
李鸣野
软件技术与研究
2019
6
21
[摘要]
5
基于网格化的出租车空载寻客路径推荐
高瞻
算法
2019
5
281
[摘要]
6
基于强化学习的多人姿态检测算法优化
黄铎
图像处理与应用
2019
4
186
[摘要]
7
多机器人系统中基于环境侧信息的移动任务调度算法
叶刚
算法
2019
3
295
[摘要]
8
基于SGAN的中文问答生成研究
沈杰
人工智能与识别
2019
2
194
[摘要]
9
遗传-蚁群算法在灾后应急物资路径规划问题中的应用研究
王帅
应用技术与研究
2018
9
99
[摘要]
10
基于三维地形的路径规划算法研究
周兰凤
算法
2018
8
275
[摘要]
11
基于人工势场和量子遗传算法的移动机器人路径规划方法
侯翔
算法
2018
6
263
[摘要]
12
考虑多类别危险品的危险品多式联运选址及路径规划
赵志文
应用技术与研究
2018
12
90
[摘要]
13
ESPP:基于SDN的节能路径规划系统
肖军弼
网络与通信
2018
11
204
[摘要]
14
监督式强化学习在路径规划中的应用研究
曾纪钧
人工智能与识别
2018
10
185
[摘要]
15
基于光流传感器的旋翼无人机实时避障系统
余超凡
人工智能与识别
2018
1
206
[摘要]
16
交通路网最优路径的搜索仿真研究
杨智宇
应用技术与研究
2017
7
19
[摘要]
17
基于CPU-GPU的B样条曲面并行刀具路径规划方法
黎振东
应用技术与研究
2017
7
24
[摘要]
18
基于统计分析的自适应蚁群算法及应用
许明乐
算法
2017
7
204
[摘要]
19
基于OpenGL ES的移动终端三维地图可视化
孙伟
图像处理与应用
2017
3
154
[摘要]
20
基于遗传算法的虚拟足球游戏设计
周丽芳
人工智能与识别
2017
2
209
[摘要]
21
一种改进型Q学习算法及其在行为树中的应用
涂浩
算法
2017
12
235
[摘要]
22
基于出租车轨迹数据的路径规划方法
林娜
应用技术与研究
2016
1
68
[摘要]
23
基于演化博弈的多智能体任务转发机制
叶超
软件技术与研究
2015
4
15
[摘要]
24
基于五因素人格模型的人群仿真研究
薛铸鑫
应用技术与研究
2015
12
46
[摘要]
25
基于GA的多智能机器人合作的物流配送系统研究
代冀阳
算法
2015
12
253
[摘要]
26
基于强化学习的RoboCup Keepaway高层抢球策略
李学俊
应用技术与研究
2015
10
101
[摘要]
27
基于改进蚁群算法的机械手三维操作路径规划
伊华伟
算法
2014
4
302
[摘要]
28
基于信息物理融合系统的水资源分配模型研究
林淞
应用技术与研究
2014
12
109
[摘要]
29
AUV巡航路径规划建模及仿真研究
王鹏
算法
2014
1
268
[摘要]