首页 >人工智能 > 内容

具有二元奖励的现实世界中的高加速强化学习

人工智能 2021-02-09 10:19:29

在机器人中使用深度强化学习可能是预编程动作的更有效替代方法,并使机器人能够执行更具挑战性的任务。但是,在物理系统上学习绝对不能损坏机器人。

最近的一篇论文集中在杂耍两个球的任务上。由于需要高加速度,因此无法进行模拟,并且会发生非线性效应和动态接触。此外,最佳策略无法传递,必须在每个单独的机器人上学习。

该研究表明如何将当前可用的学习方法和工程能力用于此任务。结果表明,该系统能够在56分钟内学习任务。经过逐步改进,它实现了超过4500个重复缓存的重复处理。相比之下,未经训练的人类杂耍者在训练数小时后即可执行约20次接球。

可以在物理世界中学习的机器人对于使机器人能够摆脱僵硬和预先编程的动作至关重要。对于诸如杂耍之类的动态高加速度任务,在现实世界中学习尤其具有挑战性,因为必须在不损害系统的情况下突破机器人及其操作的极限,从而扩大了机器人学习算法的采样效率和安全性。与以前的工作主要侧重于学习算法相反,我们提出了一种学习系统,该系统将这些要求直接纳入策略表示,初始化和优化的设计中。我们证明了该系统使高速Barrett WAM机械手能够利用二进制奖励信号从56分钟的经验中学到两个球。最终政策连续处理长达33分钟或大约4500次重复捕获。记录学习过程和评估的视频可以在以下位置找到: 这个https URL

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。