人工智能论文5000字(人工智能的目的作文)

AA是Article for Argument的缩写,AI是Articl

人工智能的目的作文?

人工智能为了方便,减少人工操作

ai和aa有什么区别?

AA是Article for Argument的缩写,AI是Articl

写网络小说还有未来吗?

悟空问答邀请!

没有必要发展。 人工智能现在可以写诗写小说,但我认为人工智能永远写不了人。

人工智能也许可以通过分析计算,设计程序,写出最高雅的诗句最精彩的小说,但我并不期待它的创造性和个性。 因为那只不过是对现有作品的分析模仿。

文学是人类情感的表达,人类的情感比最复杂的人工智能不知道要复杂多少倍。 因为感情随时随地无限变化,又受到千百年来积淀的人类文化和现实生活以及个人经验和性格的制约和影响,每个人都是一个丰富复杂的世界。 高科技程序化的文章也比不上小学生作文的真情表达。

小说无论怎么写,都是作家观察力和表现力的展示,是作家思想力量的展示,是对历史、现实观察和思考的深邃和独到之处,文字表达的个性、才能是人工智能所不具备的。 人工智能可以模仿李白、杜甫、施耐庵、罗贯中、吴承恩、曹雪芹,但不能创造出能与他们比肩的新作家。

文学不是数学。 数学是逻辑思维,文学是形象思维。 作家的想象连最简单的电脑都无法创造,却能创造出电脑无法分析的虚幻世界和最精致复杂的独特情感世界。

大家有没有什么靠谱一点的兼职?

这个问题我真的问过正确的人。 请让我00多岁的少年回答你的问题。 我为了买房买车负债100万美元,目前靠打工借副业还。 看我下面的介绍就知道了。

现在的人没有学历,月薪3000多元完全不够。 如果有很大的压力,找一份工资高的工作是相当困难的。

我结婚的时候,因为丈人看不上我,叫我买两套房子,我负债100万美元,在工厂里打螺丝钉每月只拿一点工资,养活不了妻子和孩子,所以想过打工生活 目前,我可靠的兼职工作是送外卖、跑滴滴、代驾。

一整天我的上班时间是7点-14点送外卖,14点-21点跑网络预约,21点-4点代驾。 我也一整天都在滴水、外带。 我打工的上班时间是早上8点30分到晚上17点在工厂里拧螺丝,下班后送外卖代理开车。 首先,外卖。 到今天为止我已经做了好几年美团骑手了,来和大家说想当外卖跑垒员之前的注意事项。 我买的电动车电池是锂电池,我个人跑不快,也没力气,就像上坡乌龟爬一样。 送货最大的困难是在规定的时间内送到客人手里。 如果那边的送货交通规则不是特别严格的话,可以买到电池电量多的东西。 如果,专业送餐最好有两个电池,按顺序更换。 个人比较锂电池和铅,还是喜欢铅的电动汽车。 最低也有铅的耐行驶性,而且副零件便宜。 (

最重要的是这几年的心得

1 )初学者订单时,请勿订单2件以上。 一开始最好一件一件地下单。 如果不是对你的路线特别熟悉的人,可以订购2件以上

2:导航指南的位置一般稍微偏移。 特别是在小区和村里,有些小区楼层的高标识不明显,请尽早给客人打问清楚。 经常迟到是因为到了目的地也找不到客人的座位。 我一开始就迟到了好几张,头都大了。 重要提示: 《特别是夜晚》很难找到地址,所以尽量准备充电式手电筒

3 )还要注意抢单。 请确认客人的订单是在帮助配送还是有预约。 我抢过这样的订单。 客人要求第二天早上7点去店里取货,但我因为离店里太远而选择取消订单,结果我被罚款8元。 如果时间长了会被更多的惩罚。

4:与客户的对话也很重要。 我个人理解,用尽量温柔的语气,即使是你的错,别人也会选择原谅和理解。 那样客人就不会给你不好的评价了。 如果你的差评很多的话,会对你的派单产生很大的影响。 现代人吃软的不吃硬的都可以吧

5 )你到了送货地点,你想送的东西还没到客人手里,同时你的送货时间也快迟到了。 这个时候,可以向客人说明,说自己是初学者,先确认到达吗? 我马上送你去楼上。 谢谢你。 一般客人都同意。 你超时是因为你必须取钱,这也影响了之后的派单。

6 )如果你不小心抢了太多订单,尽量在1分钟内传输,超过1分钟平台不给你传输的机会,那时候会头疼。

这些都是我这几年熟悉的事情,希望对想做这个工作的朋友有帮助。 还有,记得多带点口罩放在车上。 为了灾祸,请务必佩戴口罩。 向陌生人加油。

下楼面我再分析一次外卖的收益情况:

打工的话,建议晚上17:00之后送外卖。 此时也是外卖高峰,大多数人下班了,单子多,门槛低,不需要什么学历。 这也是很多人送外卖的一个要素。 众筹下载,买电动车,买头盔、雨衣、盒子,买锂电池投资3000组不是骄傲,但从自己的经历来看,信不信由你,我的收益每晚20张以上,100 高峰时期你得出去跑。 吃饭的问题必须早点吃。 否则,你一张也收不到。 不辞辛苦的话,一个月能跑两万张。 坐标上海,我想其他地方也一样。 现在的单价约为5张。 下雨天的话,10张一张。

如果全职做的话,我建议你在同城中心跑。 价格距离都在10公里以上。 不要跑队伍。 只要工资高,多远都没关系。 基本工资标准为3000、全勤奖400、社会保障津贴500、费津贴200,需要25天以上。 不能迟到早退。 每月跑300票以上。 满十五元,达到五百元的话,二十元一元。 每月收入8000元以上没有问题。 二是飞溅水滴,坐风车。 我有个问题。 “明明滴点水从10%变成现在的30或40,为什么有人要主张呢? ’首先我自己分享,希望你们能帮点忙

首先,我是长白班的员工,工作时间是早上8点半上班,晚上5点下班。 我是打工进的滴滴顺风车。

其次,要进入滴滴顺风车平台,我们更注重平台的客户数量。 与嘀嘀打车等其他客户群体相比,哈罗客户群体的优势明显。 而且,顺风风车可以自由选择。 顺路的话不能去接的话就不去接。 选择90%以上的顺路订单,设置3条线路,一个地址去市内的繁华商圈,一个上班地去市内的繁华商圈,一个繁华商圈去地址。

从周一到周五我宣布上班的话两条路线的全程约30公里左右一个小时内到达。 路线是朋友介绍的,往返从来不堵车。 一个是5点半从公司出发到达市内商圈。 一条是7点从市内回家的路线,然后我原则上至少要排两张票出发,或者三个人以上不拼车,下单去接,回来也是这样。 一天往返,一天的总收入在300左右。

从星期一到星期五1500,我的车大约5毛1公里,跑大约500公里需要200多元。 (反正坚持半年也是5天一次,每次加240美元)如果没有违规的话1300,周末抽一天跑车,计划往返3次。 (当然大部分情况下是两个往返半。 )毛收入700 ) )是我计算的平均值,600一定有。这样一周1800个收入,一个月7200个。

(注明:本人几乎不到一个月的一周3天到4天,4周的周末也只出车2到3次,实际情况是每月5000左右的收入,一个月的测距仪在2000公里左右。 我自认打工不比滴滴快车的全职差。 跑车的地点是上海。 认为我的方法适合你的人可以关注我,一起打工提高收益。 谢谢你。

滴滴其实能赚钱,但只有少数人能赚。 很多司机都会问,滴滴到底用什么样的车好呢?

如果符合条件的话,还是建议乘坐新能源车。 新能源车一天充电50,肯定比燃油车成本低,但如果要靠打工来消磨时间,那就要看自己的心情了。

第三,代驾。

首先,第一,你的年龄超过5年。 这是最重要的一点。 二是熟悉车辆的操作。 这个可以在自己跑步的时候慢慢学到。 时间越长,开的车越多,你就越习惯了。 满足这些条件时,我们可以找个平台加入。 一般当地城市都有代驾平台,习惯了就能跑。

初学者的任务是先去研修再办理手续。

培训完成,填写资料,下载APP,还有简单的在线考试。

然后就是付钱。 916的保险和体检费,340个高级套餐(大衣、背心、头盔、座套、行李箱垫、手套2、头盔灯)。 通过沟通发现,代步车可以自己购买,但需要乘坐检查。

然后拉拢到钉钉小组,分配指导熟悉业务的师傅。 你可以进入赚钱的道路。

根据我的建议,代驾是服务业危险系数很高的职业! 如果一个月上线1万小时以上最少达到10小时以上,必须是一线城市。 炎热的夏天,寒风刺骨的冬天,不知道自己下一个在哪里! 想换行的人请慎重选择! 最好的是做现在的工作!

谢谢您最后一次阅读。 以上是我可靠的兼职工作。 希望我的兼职副业对你们有帮助。 谢谢你。

深度强化学习领域近期有什么新进展?

深度学习是近年来人工智能领域最受关注的研究方向之一,在游戏和机器人控制等领域取得了许多辉煌的成果。 DeepMind的工程师Joyc——失败,每次尝试都只能眼睁睁看着考失败各不相同。

强化学习领域中许多最大的课题以两大问题为中心:与环境的有效对话(探索和利用、样本效率等),以及长期的信用分配、鼓励信号等经验的有效学习。 本文试图探讨在深度强化学习领域试图解决这些课题的几个近期研究方向,并将其与人类认知进行优雅简洁的对比。 具体来说,我说以下事情。

分层强化学习

记忆和预测建模

将无模型方法与基于模型的方法相结合

本文首先简要介绍了两种具有代表性的深度强化学习算法——DQN和A3C,为后面提供一些直观的参考知识。 之后,深入探讨一些近期论文和研究的突破。

DQN和A3C/A2C

声明:我假设读者已经对强化学习有了一定程度的基本了解。 因此,这里不提供有关这些算法的深入教程。 但是,即使您不完全了解增强学习算法的工作原理,也应该能够阅读后面的内容。

深度学习的DQN (深度q网络)是将深度学习应用于强化学习的最初划时代的成功之一。 这里,使用神经网络来学习用于经典雅达利游戏的q函数,例如《乒乓球》和《打砖块》,模型可以直接从原始像素输入中导出应该采取的动作。

从算法上看,DQN直接来源于经典的q学习技术。 在q学习中,一个状态-动作对的q值(即quality值)是通过基于经验的迭代更新来估计的。 本质上,对于给定状态下我们可以采取的所有操作,我们可以使用收到的即时报酬和对新状态价值的估计来更新对原始状态-操作对价值的估计。

如上所述,DQN的训练是最小化时间差分误差( TD-error )的MSE均方误差)。 DQN为了将q学习应用于深度神经网络使用了两个重要的策略。 而且,这两种策略也在后续的深度强化学习研究中获得了成功。 这两项战略如下:

进行重放。 每个状态/行为转换元组( s,a,r,s ) ) ) )存储在内存的“重放”缓存闪存中,并被随机采样用于训练网络。 这样可以重用训练数据和从连续的轨迹样本中移除相关性。

因为训练的稳定是使用上述的另一个目标网络Q_hat部分来实现的,所以基本上基于从固定网络生成的稳定目标而不是基于来自训练网络的不断变化的目标来计算TD误差。

之后,DeepMind的异步A3C ( A3C )和开放AI的同步变体A2C也非常成功地将深度学习方法推广到A3C方法中。

actor-critic方法是战略梯度方法和学习后价值函数的结合。 在DQN方法中,只有学习后的价值函数,即q函数,但我们遵循的“战略”只是在每个步骤中采取最大化q值的动作。 使用A3C时,您将像使用其他actor-critic方法一样学习两个不同的函数:策略actor和价值critic。 策略函数根据执行动作时的当前估计收益调整动作概率,而价值函数根据经验和后续策略收集的报酬更新收益。

通过上述更新可以看出,价值网络依赖于基线状态值v(s_I; θ_v ),我们可以将其与我们当前的奖励估计r进行比较,获得“优势”; 网络通过经典的REINFORCE算法根据这个优点调整动作的对数概率。

A3C的真正贡献在于并行化和异步化的架构。 多个加速器学习器被分配给了不同的环境实例。 所有这些都与环境交互以收集经验,并将这些梯度更新异步推送到中心“目标网络”(从DQN借用的想法)。 随后,OpenAI的A2C研究表明,异步实际上对性能没有贡献,而且实际上会降低样本效率。 对这些架构的详细描述已经超出了本文的范围,但是如果你和我一样对分布式智能感兴趣,请一定要看看DeepMind的IMPALA。 这是一个非常有用的设计范式,可用于实现对学习的扩展: echo 22-@ .com arxiv.org/ABS/1802.01561。

虽然DQN和A3C/A2C都是非常强大的基线代理,但是如果更复杂的任务、严重的局部观察性和/或动作与相关联的报酬信号之间有长延迟,这些代理通常很难继续。 因此,强化学习研究有一个致力于解决这些问题的子领域。 接下来,我们来看看一些优秀的研究。

分层强化学习( HRL )。

分层强化学习是一种从多个战略层进行学习的强化学习方法,每一层都有控制不同层次的时间和行为抽象的责任。 最低水平的战略输出环境的动向,更高水平的战略可以操纵更抽象的目标和更长时间的尺度。

为什么这个方法很有魅力呢? 首先,最重要的是在认知方方面,许多研究认为人和动物的行为是基于层次结构的。 这在日常生活中得到了直观的体现。 当我决定做饭时,(实际上,我很少做饭,但为了合理地论证,让我们假设我是个负责任的人。 )将此任务分为更简单的子任务),但不会忽略烹饪的总体目标。 我还可以切换不同的子任务来实现同样的目标,比如不煮面而做蒸饭。 这表明现实世界中的任务具有固有的层次结构和组合性质,因此可以通过串联、重复或组合简单的基本动作来完成复杂的工作。 近年来的一些研究甚至发现HRL组件与额叶皮质定的神经结构之间存在直接的相似性。

从技术方面来看,HRL特别引人注目。 因为这有助于解决上述第二个问题的两大课题,即如何从长期的信用分配、奖励信号等经验中有效地学习。 在HRL中,下位层战略是根据上位层战略分配的任务从内在报酬中学习的,所以即使报酬稀疏,也可以学习基础任务。 此外,高层策略发展的时间抽象使得我们的模型能够根据时间上扩展的经验来处理信用分配问题。

所以HRL的工作怎么样? 目前,可以用几种不同的方法实现HRL。 Google Brain最近的一篇论文采用了一种特别清晰、简单的方法,并引入了良好的数据有效培训战略修正方法。 他们的型号名称为Hiro:echo 22-@ .com arxiv.org/pdf/1805.08296.pdf。

μ_hi是高电平策略,是低电平策略输出要实现的“目标状态”。 μ_lo是一种低级策略,试图通过输出环境行为来实现其目标状态观察。

其设计思路有两个战略层。 高层战略的培训目标是最大化环境奖励r。 在每个c时间步长,高层策略都会对新动作进行采样。 这是较低级别战略要达到的“目标状态”。 低层战略的训练目标是选择适当的环境行为,以便可以进行与给定的目标状态相似的状态观察。

举个简单的例子吧。 假设你在训练机器人以特定的顺序堆叠颜色框。 任务成功并最终完成时,只能给予一个报酬,所有其他时间步骤的报酬为0。 直觉告诉我们,顶级战略有责任提出实现所需的子目标。 可能,输出的第一个目标状态是“观察到红色方框就在前面”,第二个目标状态是“观察到蓝色方框在红色方框旁边”,以及“观察到蓝色方框在红色方框上”。 较低级别的策略在环境中搜索,直到找到生成这些观察结果所需的一系列操作,例如选择蓝色框以显示它们移动到红色方框上。

HIRO使用深度细节层次训练目标变化来训练低层策略,其内部报酬被参数化为当前观察和目标观察之间的距离。

DPG是扩展DQN思想的连续操作空间,是另一种深入影响的深度强化学习算法。 这也是actor-critic方法,使用策略梯度优化策略。 但是,不像A3C那样根据优势优化战略,而是根据q值进行优化。 因此,在HIRO中,应该最小化的DDPG邻域误差如下。

另外,为了使用脱离策略的经历,上层策略使用脱离策略修正进行训练。 其思想是为了提高示例的效率,希望使用某种形式的重放缓存,如DQN。 但是,不能直接训练过去的经验和高层的战略。 这是因为低层战略是不断学习和变化的,即使设定了与过去经验相同的目标,低层战略也可能会表现出不同的动作/转变。 HIRO提出的策略修正是为了追溯修正策略经历中的目标,使观察到的动作序列的可能性最大化。 换句话说,如果从播放记录来看,过去智能体的动作( x,y,z )可以达成目标g这一点是明确的,那么现在的智能体采取相同动作( x,y,z )的可能性就变得最高,也就是说该动作

然后,使用DDPG变体通过这些操作、新目标和环境奖励r来培训高层策略。

HIRO当然不是唯一的HRL方法。 FeUdal网络是更早的相关研究( echo 22-@ .com arxiv.org/pdf/1703.01161.pdf ),使用的是所学习的“目标”特征而不是原始状态观察。 事实上,研究的许多变体来源于学习有用的低层子策略的不同方法; 许多论文使用补助性或“代理性”报酬,其他研究则进行了事前训练或多任务训练。 与HIRO不同,这些方法大多需要一定程度的人工设计和领域知识,本质上限制了它们的通用性。 最近也有研究在探索使用基于群体的训练( PBT,echo 22-@ .com arxiv.org/ABS/1711.09846 ),这是另一种个人最喜欢的算法。 本质上,内部报酬被视为附加超参数,通过在训练过程中“进化”群体,PBT可以学习这些超参数的最佳进化。

HRL是目前非常热门的研究领域,也非常容易与其他技术相结合。 例如,这篇论文是hRL与模仿学习相结合: echo 22-@ .com arxiv.org/pdf/1803.00590.pdf。 但是,HRL的核心只是非常直观的思想。 HRL是可扩展的,具有神经解剖学上的相似性,可以解决强化学习领域内的一些基本问题。 但是,和其他优秀的强化学习方法一样,训练的难度非常大。

记忆和注意

现在让我们考虑一下解决长期信用分配和稀疏奖励信号问题的其他方法。 具体来说,最明显的方法是特工真的很擅长记忆事物。

深度学习的记忆总是很有趣。 因为无论研究者如何努力,几乎没有哪个体系结构能比得上经过仔细调整的LSTM。 但是,人类的记忆机制与LSTM完全不同。 我们在处理日常生活任务时,会回忆和关注与场景相关的特定记忆。 几乎没有其他内容。 例如,当我回家开车去当地的杂货店时,我用的不是从Camden Town开车到伦敦Piccadilly Circus的记忆——,而是在这条路上开了几百次的记忆。 即使这些记忆刚刚加入我的经历,我仍然灵活地活着。 在这方面,人类的记忆几乎都是基于场景进行调查的。 ——知道我们在哪里和做什么,我们的大脑知道哪些记忆对我们有帮助。

在深度学习中,这个想法促进了基于外部重要值的记忆。 这不是新思想; 神经图灵机( echo 22-@ .com arxiv.org/pdf/1410.5401.pdf,这是我读过的第一篇也是我最喜欢的论文) )使用可微分的外部存储器增强神经网络 将其扩展到强化学习领域——,很容易在任何给定的时间步骤中,代理获得其环境观察和关于当前状态的记忆。 这就是最近的MERLIN架构所做的。 是echo 22-@ .com arxiv.org/pdf/1803.10760.pdf。

M——两者可以通过LSTM的隐性线性函数获得。 最后,下游的工作是使用战略网络从z_t和记忆中读取的输出发出一个动作。

一个重要的细节是,为了确保状态表现有用,MBP也通过训练来预测当前状态z_t的报酬,所学习的表现与当前任务相关。

MERLIN的训练有一些复杂性; MBP的目标是用作有用的“世界模型”,因为这是一个难以实现的目标,实际的训练目标是优化变分下界( VLB )损失。 (如果您不熟悉VLB,请参阅本文。 echo 22-@ .com xyang 35.github.io/2017/04/14/variational-lower-bound /但即使你不明白,也会妨碍你理解MERLIN 该VLB损失包含两个成分:

下一个状态变量中的先验和后验概率分布之间的KL距离,其中在后验分布中增加了新的观察条件。 通过最小化此KL距离,可以确保新的状态变量与以前的观察/动作一致。

状态变量的重构损失我们试图再现输入到该状态变量中的观察,例如图像、前一个动作等,并根据该状态变量预测报酬。 如果损失较小,则可以找到准确表示观察的状态变量,并用于生成可获得高报酬的操作。

下面的公式是我们最终的VLB损失,其中第一项是重构损失,第二项是KL距离。

这个战略网络的损失是我们之前讨论过的A3C的战略梯度损失稍好的版本; 它使用了一种称为“广义优势估计算法”的算法,其细节超出了本文的范围(记载于MERLIN论文附录的4.4节),看起来像以下所示的标准战略梯度更新。

训练结束后,MERLIN应该能够通过状态表示和记忆对世界进行预测性建模,其策略也可以利用这些预测进行选择。有用的动作。

MERLIN并不是唯一使用外部存储的深度强化学习研究。 2016年,有研究人员将这一思想应用于记忆q网络( MQN ),解决了Minecraft的迷宫问题。 echo 22-@ .com arxiv.org/pdf/1605.09128.pdf; 但是,将记忆用作世界预测模型的概念具有独特的神经科学推动力。 一篇Mhttps://goo.gl/cVjQK5 )很好地说明了这一思想,这里不再重复,只对其重要论点进行说明。 与大多数神经网络描述不同,我们的大脑很可能不像“输入输出”机器那样工作。 相反,其结构与预测引擎相似,我们对世界的感知实际上只是大脑对我们感觉输入原因的最佳推测。 神经科学家Amil Seth很好地总结了Hermann von Helmholtz在19世纪提出的这一理论:

大脑被困在头骨里。 它都接受模糊有噪声的感觉信号,这些信号只是与世界物体间接相关。 因此,感知必然是推理过程,其中非确定性的感觉信号与先前对世界的期望或“信念”相结合,以构建大脑对这些感觉信号原因的最佳假设。

基于MERLIN记忆的预测器目标是实现该预测推理。 对观察进行编码,并将它们与内在先验相结合,生成涵盖输入特征(或原因)的“状态变量”。 这些状态将保存在长期记忆中,代理可以根据它们采取行动。

代理、世界模式、想象力

有趣的是,大脑预测引擎这样的概念能把我们想探索的第一个强化学习问题——从环境中有效学习的方法带回来吗? 如果不能直接基于观察而获得动作,我们如何最好地与周围的环境对话并从中学习呢?

在强化学习领域,以往的做法是无模型学习或基于模型的学习。 无模型强化学习是学习将原来的环境观察直接映射到价值和动作上。 基于模型的增强学习首先学习基于原始观察的环境迁移模型,然后使用该模型选择行为。

图中的外轮表示基于模型的强化学习,包含&"; direct RL &";的内轮表示无模型强化学习。

基于模型规划的样本比无模型学习中的简单试验错误方法高效得多。 但是,学习优秀的模型往往非常困难。 因为模型不完备引起的误差经常会使代理的性能恶化。 因此,在深度强化学习领域的许多早期成功研究(DQN和A3C )都没有模型。

尽管如此,在1990年的Dyna算法https://goo.gl/5zrqES中,无模型和基于模型的强化学习方法的边界线变得模糊,其中使用有助于无模型战略训练的学习后的模型进行模拟 目前正在研究将这两种方法直接结合的“提高想象力的代理”算法( I2A,echo 22-@ .com arxiv.org/ABS/1707.06203 )。

在I2A中,最终策略是与没有模型的组件和基于模型的组件相关联的函数。 基于模型的组件被称为对于主体世界的“想象”,由主体内部的基于被学习的模型的想象轨迹构成。 但重要的是,基于模型的组件的末端有编码器,可以集中解读想象的轨迹,必要时可以忽略自己的想象。 也就是说,代理如果发现其内部模型投影的轨迹是无用的、不正确的,就可以学习忽略该模型,使用没有模型的分支进行处理。

上图显示了I2A的工作。 观察从一开始就传递到没有模型的组件和基于模型的组件。 在基于模型的组件中,根据当前状态下可执行的n个操作,假设有n个不同的轨迹。 这些轨迹可以通过将动作和状态输入到其内部环境模型中来获得,迁移到新的想象状态,其中可以采取得到最大化结果的动作。 一种蒸馏后的想象策略与交叉熵损失导致的最终策略相似。 选择下一个动作。 经过固定的k步骤后,这些轨迹被编码和聚合,并与没有模型组件的输出一起输入到策略网络。 关键是,这种编码可以用策略最有用的来解读想象轨迹——,如果不合适可以忽略它们,在可用时提取与报酬无关的信息。

I2A的战略网络像A3C和MERLIN一样,都是通过利用优势的标准战略梯度损失来训练的,所以应该很熟悉:

另外,在实际战略和内部模型的想象中的战略之间追加战略蒸馏损失,确认想象中的战略选择的动作与现在的智能体选择的动作接近。

I2A的性能优于包括蒙特卡罗树搜索( MCTS )规划算法在内的许多标准。 即使基于模型的组件被故意设计为预测结果不佳,实验也能获得良好的性能。 这表明使用的模型——将根据需要使用无模型方法。 有趣的是,内部模型差的I2A的表现,实际上比有好的模型要好一些I2A——研究者认为,随机初始化或有噪声的内部模型可以提供某种形式的正则化,但这显然是一个需要进一步研究的领域。

无论如何,I2A很出色。 因为在某种意义上它体现了人类世界的运作。 我们总是根据我们所处环境中的某种心智模式来规划和预测未来,但我们也知道我们的心智模式——并不完全准确。 特别是在新环境中的时候,或者遇到我们从未见过的情况的时候。 在这种情况下,我们会像没有模型的方法一样反复试验,但我们会用新的经验来更新我们内在的心智模型。

目前许多研究者正在寻找有效结合基于模型的方法和无模型的方法。 Berkeley AI是echo 22-@ .com bair.B——考虑一下这个方法,你会发现这又回到了分层强化学习中。

所有这些研究论文都关注同一个目标。 实现与无模型方法相同(或更好)的表示,同时实现类似于基于模型的方法的样本效率。

总结

毫无疑问,深度强化学习模式确实很难训练。 但是,正是由于这种难度,我们不得不提出了很多策略、方法和算法,以便能够借助深度学习的强大力量解决经典(或非经典)控制问题。

这篇文章不完全介绍了——对深度学习的最新研究。 还有很多研究没有被提及,还有很多我完全不知道的研究。 但是,这里介绍的关于记忆、分层和想象取向的研究希望能让读者了解如何着手解决强化学习领域的长期挑战和瓶颈。