分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-05-18 合作期刊: 《计算机应用研究》
摘要: 使用强化学习解决机器人操作问题有着诸多优势,然而传统的强化学习算法面临着奖励稀疏的困难,且得到的策略难以直接应用到现实环境中。为了提高策略从仿真到现实迁移的成功率,提出了基于目标的域随机化方法:使用了基于目标的强化学习算法对模型进行训练,可以有效的应对机器人操作任务奖励稀疏的情况,得到的策略可以在仿真环境下良好运行,于此同时在算法中还使用了目标驱动的域随机化的方法,在提高策略泛用性以及克服仿真和现实环境之间的差距上有着良好的效果,仿真环境下的策略容易迁移到现实环境中并成功执行。结果表明,使用了基于目标的域随机化方法的强化学习算法有助于提高策略从仿真到现实迁移的成功率。