以下为《贝尔曼方程相关知识》的无排版文字预览,完整内容请下载
贝尔曼方程
一、简介
贝尔曼方程(Bellman Equation)也被称作 动态规划方程(Dynamic Programming Equation),表示动态规划问题中相邻状态关系的方程。
某些决策问题可以按照时间或空间分成多个阶段,每个阶段做出决策从而使整个过程取得效果最优的多阶段决策问题,可以用动态规划方法求解。某一阶段最优决策的问题,通过贝尔曼方程转化为下一阶段最优决策的子问题,从而初始状态的最优决策可以由终状态的最优决策(一般易解)问题逐步迭代求解。
贝尔曼方程将“决策问题在特定时间点的值”以“来自初始选择的报酬 及 由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题,而这些子问题遵守由贝尔曼所提出的“最佳化原理”。
现实中贝尔曼方程多被用来解决马尔科夫决策过程问题,即最优决策只依赖于当前状态而和状态的历史无关。在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。
二、展开
顺序:强化学习 → 马尔科夫决策过程 → 贝尔曼方程
强化学习
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、模拟优化方法、多主体系统学习、群体智能、统计学以及遗传算法。在经济学和博弈论中,强化学习被用来解释在有限理性的条件下如何出现平衡。
在机器学习问题中,环境通常被规范为马可夫决策过程(MDP),所以许多强化学习算法在这种情况下使用动态规划技巧。
强化学习的基本要素
/
智能体(Agent):可以采取行动的智能个体;例如,可以完成投递的无人机,或者在视频游戏中朝目标行动的超级马里奥。强化学习算法就是一个智能体。在现实生活中,智能体可以是做出决策的人。
行动(Action):A是智能体可以采取的行动的集合。一个行动(action)几乎是一目了然的,但是应该注意的是智能体是在从可能的行动列表中进行选择。在电子游戏中,这个行动列表可能包括向右奔跑或者向左奔跑,向高出处跳或者向低处跳,下蹲或者站住不动。在股市中,这个行动列表可能包括买入,卖出或者持有任何有价证券或者它们的变体。在处理空中飞行的无人机时,行动选项包含三维空间中的很多速度和加速度。
环境(Environment):指的就是智能体行走于其中的世界。这个环境将智能体当前的状态和行动作为输入,输出是智能体的奖励和下一步的状态。如果智能体是现实世界的人,那么人所处的环境就是能够处理行动和决定人一系列行动的结果的物理规律和社会规则。
状态(State,S):一个状态就是智能体所处的具体即时状态;也就是说,一个具体的地方和时刻,这是一个具体的即时配置,它能够将智能体和其他重要的失事物关联起来,例如工具、敌人和或者奖励。它是由环境返回的当前形势。一个人是否曾在错误的时间出现在错误的地点?那无疑就是一个状态了。
奖励(Reward,R):奖励是衡量某个智能体的行动成败的反馈。例如,在视频游戏中,当马里奥碰到金币的时候,它就会赢得分数。面对任何既定的状态,智能体要以行动的形式向环境输出,然后环境会返回这个智能体的一个新状态(这个新状态会受到基于之前状态的行动的影响)和奖励(如果有任何奖励的话 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 通过V值来获得最优的π。
此外,值迭代还可以理解成是采用迭代的方式逼近贝尔曼最优方程。
值迭代完整的算法如图所示:
/
由上面的算法可知,值迭代的最后一步,才根据V*(s),获得最优策略π*。
一般来说值迭代和策略迭代都需要经过无数轮迭代才能精确的收敛到V*和π*, 而实践中,往往设定一个阈值来作为中止条件,即当Vπ(s)值改变很小时,就近似的认为获得了最优策略。在折扣回报的有限MDP(discounted finite MDPs)中,进过有限次迭代,两种算法都能收敛到最优策略π*。
马尔可夫决策过程的动态规划解法,优点在于它有很好的数学上的解释,但是动态要求一个完全已知的环境模型。
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。
以上为《贝尔曼方程相关知识》的无排版文字预览,完整内容请下载
贝尔曼方程相关知识由用户“ming551”分享发布,转载请注明出处