来看看,具备自主决策能力的机器狗Max有多“狗”:
(资料图片仅供参考)
才一年不到,Max的灵活性和机动性看起来大有长进。
“活泼”和“好动”背后,来自于它的主人给它注入了新的算法。
Max现在已经具备了一定的学习能力。
6月12日,腾讯Robotics X机器人实验室公布了智能体研究的最新进展,通过将前沿的预训练AI模型和强化学习技术应用到机器人控制领域,让腾讯机器狗 Max 的灵活性和自主决策能力得到大幅提升。
引入预训练和强化学习:
让机器狗Max更加灵动
这项技术可以让机器狗Max分阶段学习,并将不同阶段的技能、知识积累并存储下来,在未来面对复杂任务时,不必重新学习,能够“举一反三”,灵活应对。
第一阶段,通过游戏技术中的动作捕捉系统,研究员收集真狗的走、跑、跳、站立等动作的数据,在仿真器中构建了一个模仿学习任务,将这些数据中的信息抽象并压缩到深度神经网络模型中。
这项技术得益于,腾讯RoboticsX机器人实验室和腾讯游戏的合作。
用游戏技术推动了仿真引擎的准确性和高效性,同时游戏制作和研发过程中积累了多元的动捕素材。这些技术以及数据对于Max这样的智能体训练,以及真实世界机器人策略部署起到了重要的辅助作用。
第二阶段,通过额外的网络参数,将第一阶段掌握的机器狗灵动姿态与外界感知联系在一起,使得Max能够通过已经学会的灵动姿态来应对外界环境。
而且,当机器狗Max适应了复杂多变的环境后,这些知识将会被固化下来,存在神经网络结构中。
第三阶段,附加的网络会获取与复杂任务有关的信息,例如在游戏中,获取对手的信息、旗子的信息。此外,通过综合分析所有信息,负责策略学习的神经网络,会学习出针对任务的高阶策略,例如往哪个方向跑动,预判对手的行为来决定是否继续追逐等等。
上述每一阶段学习到的知识都可以扩充和调整,不需要重新学习,因此可以不断积累,持续学习。
下面就以著名的障碍追逐比赛“WorldChase Tag“为例,来看看Max的新技能到底如何。
机器狗障碍追逐比赛 :
拥有自主决策和控制能力
World Chase Tag是一个竞技性障碍追逐赛组织。一般来说,障碍追逐比赛每轮次由两名互为对手的运动员参加,一名是追击者(称为攻方),一名是躲避者(称为守方),当一名运动员在整个追逐回合中(即20秒)成功躲避对手(即未发生触碰)时,团队将获得一分。在预定的追逐回合数中得分最多的战队赢得比赛。
在机器狗障碍追逐比赛中,游戏场地大小为4.5米 x 4.5米,其中散落着一些障碍物。游戏起始,两个MAX机器狗会被放置在场地中的随机位置,且随机一个机器狗被赋予追击者的角色,另一个为躲避者,同时,场地中会在随机位置摆放一个旗子。
追击者的任务是抓住躲避者,躲避者的目的则是在保证不被抓到的前提下去接近旗子。如果躲避者在被抓到之前成功触碰到旗子,则两个机器狗的角色会瞬间发生互换,同时旗子会重新出现在另一个随机的位置。游戏最终的结束条件为当前的追击者抓住了躲避者,且当前为追击者角色的机器狗获胜。所有游戏过程中,两个机器狗的平均前向速度被约束在0.5m/s。
基于这个游戏看来,在基于预训练好的模型下,机器狗通过深度强化学习,已经具备一定的推理和决策能力:
比如,当追击者意识到自己在躲避者碰到旗子之前已经无法追上它的时候,追击者就会放弃追击,而是在远离躲避者的位置徘徊,目的是为了等待下一个重置的旗子出现。
另外,当追击者即将抓到躲避者的最后时刻,它喜欢跳起来向着躲避者做出一个"扑"的动作,非常类似动物捕捉猎物时候的行为,或者躲避者在快要接触旗子的时候也会表现出同样的行为。这些都是机器狗为了确保自己的胜利采取的主动加速措施。
据介绍,游戏中机器狗的所有控制策略都是神经网络策略,在仿真中进行学习并通过zero-shot transfer(无缝迁移),让神经网络模拟人类的推理方式,来识别从未见过的新事物,并把这些知识部署到真实机器狗上。
例如下图所示,机器狗在预训练模型中学会的躲避障碍物的知识,被用在游戏中,即使带有障碍物的场景并未在Chase Tag Game的虚拟世界进行训练(虚拟世界中仅训练了平地下的游戏场景),机器狗也能顺利完成任务。
怎么样,这样活泼好动的“小狗狗”,有没有兴趣再领养一只?!
—END—
解密微信刷掌支付背后黑科技
附PPT | 腾讯首席科学家张正友谈AI和生命科学
鹅厂公布最新机器人进展,能花式调酒,臂、手和真人一样灵活
标签:
Copyright @ 2015-2018 亚洲it网版权所有 备案号:京ICP备2021034106号-51 联系邮箱:5 516 538 @qq.com