深入理解强化学习——马尔可夫决策过程:价值迭代-[最优性原理]
分类目录:《深入理解强化学习》总目录
在文章《深入理解强化学习——马尔可夫决策过程:策略迭代-[基础知识]》中我们介绍了马尔可夫决策过程中的策略迭代,现在我们从另一个角度思考问题,动态规划的方法将优化问题分成两个部分。第一步执行的是最优的动作。之后后继的状态的每一步都按照最优的策略去做,最后的结果就是最优的。
最优性原理定理(Principle of Optimality Theorem): 一个策略 π ( a ∣ s ) \pi(a|s) π(a∣s)在状态 s s s达到了最优价值,也就是 V π ( s ) = V ? ( s ) V_\pi(s)=V^*(s) Vπ?(s)=V?(s)成立,当且仅当对于任何能够从 s s s到达的 s ′ s' s′,都已经达到了最优价值。也就是对于所有的 s ′ s' s′, V π ( s ‘’ ) = V ? ( s ) V_\pi(s‘’)=V^*(s) Vπ?(s‘’)=V?(s)恒成立。
参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!