Qries 广告

强化学习与模仿学习:比较分析

模仿学习是计算机模仿人类行为的训练方法。

强化学习为DeepMind的Muzero,Alphastar,Agent57等提供动力,而模仿学习是Waymo自动驾驶汽车的核心。但是,这两种训练方法到底是什么,它们如何相互堆叠?让我们找出答案。

什么是强化学习?

强化学习是指模型如何通过在动态环境中重复进行反复试验的相互作用来学习任务。这些系统学会根据奖励功能做出决策,而无需人工干预和明确的编程。RL被认为是AGI的可行途径,因为它不取决于历史数据集。为此,像Facebook这样的科技公司,谷歌,DeepMind,Amazon和Microsoft已投入大量资源来推动RL的前沿。RL的目的是学习最大化长期累积奖励的最佳政策。

什么是模仿学习?

模仿学习是计算机模仿人类行为的训练方法。在伊利诺伊州,通常是人类的专家,而不是奖励功能,为代理提供了一组演示。然后,代理商试图通过遵循和模仿专家的决定来学习最佳政策。最后,代理商学会了基于演示的观测和行动之间的映射。

好处

强化学习不需要大的数据集或历史数据来训练代理。因此,RL绕过数据标记的挑战以及偏见和不正确数据的陷阱。该方法允许代理具有创新性,并且设计解决方案可能没有想到,从而进一步提高了其适应性。

模仿学习不会面临培训问题,例如缺乏奖励功能和明确编程的需求。研究在某些用例中,显示生成的对抗性模仿学习具有“巨大的有效性,尤其是与神经网络参数化的效果”。

限制

RL带有自己的一套挑战。代理在稀疏或没有奖励的环境中很难训练。使用较少的样本,RL系统需要大量时间才能高效。例如,Deepmind的Alphagozero在击败世界冠军之前打了五百万球。缺乏可重复性和在现实生活中表现不佳的代理是其他主要局限性。

模仿学习用于数据驱动的模型。手段,建立在有偏见的历史数据上的不道德模型可能会带来问题。IL也不能很好地概括,因为馈送的信息只是通用样本的集合。正是为什么像GPT-3这样的模型接受了数十亿个参数的培训,倾向于流氓。

学习效率

由于强化学习是基于奖励机制,因此培训师必须设定规则。当模型的动作空间与专家的动作空间不同时,RL的效果最佳,从而使模型可以根据问题学习和创新。但是,鉴于奖励的性质稀疏,学习和重新学习的稀疏性,强化学习需要几个培训情节。

当模型的动作空间和培训师重叠时,模仿学习是有效的。例如,在自动驾驶的情况下,模型和人类驱动程序的动作空间将由相同的断裂,转向或加速器组成。因此,模仿学习不需要很多培训情节。

用例

强化学习用于文本摘要,聊天机器人,自动驾驶汽车,在线库存交易,自动化数据中心冷却和推荐系统。它也用于Pac-Man等游戏。DeepMind的Alphago Zero是另一个示例,该模型学会通过对抗自身来从头开始播放。

第一辆自动驾驶汽车,阿尔文,是模仿学习的经典示例。该汽车配备了必须学会将传感器输入映射到转向角并自动驱动的传感器。如今,像特斯拉和Waymo这样的公司为自动驾驶汽车提供了模仿学习。DeepMind还利用了MIA模型中的技术。

更伟大的目标故事

Avi Gopani
Avi Gopani是一名技术记者,旨在从Analytics India Magazine的跨学科角度来分析行业趋势和发展。她的文章记载了文化,政治和社会故事,这些文化,重点是人工智能和数据分析的发展技术。

我们即将举行的活动

网络研讨会
加快深度学习推论
5月13日

会议,面对面(班加罗尔)
Machinecon 2022
6月24日

会议,虚拟
深度学习Devcon 2022
7月30日

会议,面对面(班加罗尔)
Cypher 2022
9月21日至23日

加入我们社区的3种方法

Discord服务器

与更大的数据科学生态系统和ML专业人员保持联系

电报频道

发现特别优惠,顶级故事,即将到来的活动等等。

订阅我们的新闻

从AIM获取最新更新
更多来自目标
Baidu