源自:数据采集与处理
作者:余昊 梁宇宸 张驰 刘跃虎
扫描二维码
查看更多资讯
摘 要
地形自适应能力是智能体在复杂地形条件下稳定运动的基础,而由于机器人动力学系统的复杂性,传统逆动力学方法通常难以使其具备这种能力。现有利用强化学习在解决序列决策问题上的优势训练智能体地形适应能力的单任务学习方法无法有效学习各类地形中的相关性。事实上,复杂地形自适应任务可以认为是一种多任务,子任务间的关系可以用不同地形影响因素来衡量,通过子任务模型的相互学习解决数据分布信息获取不全面的问题。基于此,本文提出一种多任务强化学习方法。该方法包含1个由子任务预训练模型组成的执行层和1个基于强化学习方法、采用软约束融合执行层模型的决策层。在LeggedGym地形仿真器上的实验证明,本文方法训练的智能体运动更加稳定,在复杂地形上的摔倒次数更少,并且表现出更好的泛化性能。
关键词
多任务学习; 模仿学习; 强化学习; 地形影响因素; LeggedGym地形仿真器
引 言
地形自适应能力是智能体在复杂地形保持稳定运动的基础。地形自适应技术增强了机器人在复杂地形下的运动性能,可用于外附骨骼可保证残障人士在日常生活中的安全行走,同时该技术也被用于角色动画或游戏引擎,使角色在复杂地形上的运动更加自然[1‑5]。苏黎世联邦理工的机器人系统实验室设计了一个包含5类地形影响因素的复杂地形仿真器LeggedGym,并采用游戏激励课程策略通过大规模并行训练,使智能体获得地形自适应技能[6]。DeepMimic方法[7]以地势高度图和腿式机器人本体状态为输入,奖励函数通过模仿奖励和任务奖励使腿式机器人获得地形适应能力。然而,这一类单任务学习模式的不同类型地形适应任务是彼此独立的,忽略了任务之间的潜在共享因素,不同任务模型之间无法相互学习,获取到的任务数据分布不够全面,当出现新的复杂地形时,模型需要重新训练。事实上,复杂地形适应任务可以因其含有的不同地形影响因素种类被看作是一种多任务,子任务被认为是对特定地形影响因素的适应任务,因此可以利用多任务学习的优势来解决。基于以上想法,本文针对地形自适应问题,提出一种地形自适应运动模仿的多任务学习方法。该方法利用地形影响因素种类衡量子任务关系,在子任务上预训练适应性策略组成执行层,采用强化学习训练的策略作为决策层,根据地形信息和决策层奖励,建立多个子任务之间的共享因素表示,融合执行层策略。
图1 本文方法训练智能体在LeggedGym地形仿真器上的运动可视化
本文工作的主要贡献包括两个方面:(1)提出一种多任务学习强化学习解决机器人复杂地形自适应任务,有效利用单一影响因素地形适应任务模型间的互学习提高运动模仿性能的稳定性;(2)一个可扩展的地形适应模型,可以利用与任务无关的运动剪辑和地形高度图训练可重复使用的地形适应策略。
1 相关工作
在LeggedGym地形仿真器的实验设置中,复杂地形被认为是含有以下影响因素的地形:discrete, stairs down, stairs up, rough slope, smooth slope等[6]。现有的方法中,DeepMimic采用近端策略优化(Proximal policy optimization, PPO)算法,将地势高度图和腿式机器人自身的状态作为输入[7],并将奖励函数分为模仿奖励和任务奖励来使腿式机器人具备了地形适应能力。Merel‑GAIL是一种修改的生成式对抗模仿学习(Generative adversarial imitation learning, GAIL)方法[8]。该方法对原本GAIL中策略的输入进行简化,使其不再关注上一时刻输出的动作,而只关注上一时刻的状态,简化了计算量,同时提出了一种分层强化学习方法来解决地形自适应任务。对抗性运动先验(Adversarial motion priors,AMP)采用生成对抗模仿学习方法使机器人模仿示教运动轨迹[9],并在此基础上加入了一个任务奖励,使其完成地形适应任务,然而由于其采用了生成对抗网络,导致模型效率差,容易出现模式崩溃现象。DeepMimic采用PPO算法,通过游戏激励课程策略在IsaacGym平台首次实现大规模并行训练,使得ANYmal等机器人具备了地形适应能力[7],然而由于其奖励函数设计得过于复杂,难以将其迁移到其他机器人,例如人形机器人。
多任务学习可以将一个复杂任务按照合理的衡量因素分解成多个相关子任务,对子任务分别训练相应模型,最后通过软约束或硬约束实现模型融合。多任务学习可以有效利用子任务的相关性,促进子任务间的相互学习,以及为新任务的学习提供额外信息,使融合后的模型具有更好的表现效果和鲁棒性[10]。
2 基本定义
3 本文方法
4 实验与结果分析
5 结束语
声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。