深入理解强化学习——马尔可夫决策过程：价值迭代-[最优性原理]

2023-12-14 21:37:36

在文章《深入理解强化学习——马尔可夫决策过程：策略迭代-[基础知识]》中我们介绍了马尔可夫决策过程中的策略迭代，现在我们从另一个角度思考问题，动态规划的方法将优化问题分成两个部分。第一步执行的是最优的动作。之后后继的状态的每一步都按照最优的策略去做，最后的结果就是最优的。

最优性原理定理（Principle of Optimality Theorem）：一个策略 $\pi(a|s)$ 在状态 $s$ 达到了最优价值，也就是 $V_\pi(s)=V^*(s)$ 成立，当且仅当对于任何能够从 $s$ 到达的 $s^{'}$ ，都已经达到了最优价值。也就是对于所有的 $s^{'}$ ， $V_\pi(s‘’)=V^*(s)$ 恒成立。

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022

文章来源:https://blog.csdn.net/hy592070616/article/details/135003596
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！