大家还感兴趣的 >>>
博猫娱乐官网
博猫娱乐登录地址:谷歌新智能体Dreamer将亮相NeurIPS2019,数据效率比前身PlaNet快8个小时
本文摘要:在具有挑战性的环境中,一些人工智能系统通过利用过去经验获得的世界形象来实现目标。

在具有挑战性的环境中,一些人工智能系统通过利用过去经验获得的世界形象来实现目标。研究人员将这些应用于新的情况,需要在以前没有遇到的环境中完成任务。

事实证明,加强自学-一种用于奖励推广软件战略向目标前进的训练技术-特别适合自学总结agent经验的世界模型,通过扩大增进新的不道德自学。据新闻报道,最近谷歌、Alphabet子公司Deepmind和多伦多大学的研究人员公开发表了名为梦想控制:通过潜意识自学不道德的新研究,开发了强化自学智能体Dreamer,通过内化世界模型,通过潜在的想象力自由选择行动。他们说,Dreamer不仅限于任何自学目标,还在数据效率、计算时间和最终性能方面达到了现有的方法。

博猫娱乐官网

在整个生命周期中,Dreamer为了预测动作,仔细观察结果的报酬,无论是重叠还是分段都会自学。在这种情况下,latentdynamicsmodel是指从图像输出中自学,继续执行计划,收集新经验的模型。潜响应依赖于隐蔽状态或潜在状态的灵活序列,需要自学更抽象的响应形式,如对象的方向和速度。

用于编码器组件,有效地将输出图片的信息构建成隐蔽状态,然后及时向前投射隐蔽状态,预测图片和奖励。上图:Dreamer完成了旋转钟摆的任务。中间表明45步预测Dreamer用于一个多部分的latentdynamicsmodel,这个模型的结构有点简单。应答位置是仔细观察和动作展开代码,但过渡性位置没有看到不仔细观察就意识到状态。

第三组件(奖励组件)根据等价的模型状态投影奖励,不道德模型实施自学战略,预测解决问题想象的环境的不道德。最后,价值模型评价行动模型构建的想象报酬,仔细观察模型获得系统信号。上图:梦想家在迷宫中导航系统。

中间显示了45步的预测。在一系列实验中,研究人员测试Dreamer在DeepmindControl中的20个视觉控制任务效果,DeepmindControl中的Suite是评价机械学习驱动的代理建模软件。

他们首先用于NvidiaV100图形芯片和10个处理器内核训练,每次训练运营一次。他们说控制套件每106个环境步骤需要9个小时。

(相比之下,谷歌的Dreamer前身PlaNet花费了17小时才超过了类似的性能。上图:梦想家正在玩Atari游戏。中间显示了45步的预测。据研究人员报道,Dreamer有效地利用自学的世界模型,从少量的经验中总结出来,其顺利证明了潜在的想象力展开的自学不道德。

他们还说,Dreamer的价值模型在短期计划中也很好,在20个任务中的16个(4个平手)中比其他模型高。研究人员说:未来,关于与自学密切相关的研究可能会将潜在的想象力扩展到视觉复杂性更高的环境中。

研究人员计划在本周温哥华的NeurIPS方案2019年展示他们的工作。Dreamer项目代码可在GitHub上公开发布获取。(公共编号:)原始文章允许禁止发布。下一篇文章发表了注意事项。


本文关键词:博猫娱乐官网,博猫娱乐登录地址,博猫娱乐在线注册

本文来源:博猫娱乐官网-www.hnzzhsyy.com

电 话
地 图
分 享
咨 询