基于朴素Bayes分类的强化学习及在游戏中的应用
目 录
1 绪 论 1
1.1 选题背景和研究意义 1
1.2 国内外研究现状 1
1.2.1 国内研究现状 1
1.2.2 国外研究现状 2
1.3 研究的基本内容 3
2 基础理论介绍 4
2.1 朴素贝叶斯分类 4
2.1.1 贝叶斯定理 4
2.1.2 朴素贝叶斯定理 4
2.2 强化学习 4
2.2.1 强化学习原理 4
2.2.2 马尔科夫决策过程 5
2.2.3 Q-learning算法 6
3 基于朴素贝叶斯分类的强化学习算法 8
3.1 朴素贝叶斯分类算法 8
3.2 Q-learning算法介绍 9
3.3 基于朴素贝叶斯分类的Q-learning算法 10
4 模型实验与分析 11
4.1 实验数据 11
4.1.1 数据的由来 11
4.1.2 数据介绍 11
4.2数据分析及模型比较 13
结 论 17
参考文献 18
附 录(必要时) 20
致 谢 21
图目录
图2.1强化学习原理示意图 5
图2.2马尔科夫决策过程示意图 6
图3.1朴素贝叶斯分类流程图 9
图4.1游戏实验环境1示例图 11
图4.2环境1游戏分数折线图 13
图4.3环境1游戏步数折线图 14
图4.4环境1每次游戏最大奖励值折线图 14
图4.5游戏实验环境2示例图 15
图4.6环境2游戏分数折线图 15
图4.7游戏实验环境3示例图 16
图4.8环境3游戏分数折线图 16
表目录
表2.1 强化学习Q值示意表 7
表4.1基于朴素贝叶斯分类的强化学习游戏数据表 12
表4.2强化学习游戏数据表 12
表4.3游戏的奖励值表 12
表4.4环境1游戏数据分析表 13
为了解决空气污染问题并减少温室气体排放(GHG),Xue Wei qi等已开发出了插电式混合动力汽车(PHEV)以实现更高的燃油效率。能源管理系统(EMS)是PHEV在实现更好的燃油经济性中非常重要的组成部分,并且是一个非常活跃的研究领域。到目前为止,大多数现有的EMS策略要么只是简单地遵循,不适应不断变化的驾驶条件的预定规则,要么只是遵循预定的规则。或严重依赖对未来交通状况的准确预测。机器学习算法已成功应用于许多复杂问题,并且近年来证明在某些决策(例如下棋)方面甚至胜过人类,这表明此类方法在实际工程问题中的巨大潜力。在这个研究中,基于深度强化学习的PHEV能源管理系统主要实现了在不同的车辆和环境状态下,都能使汽车的能源消耗达到最低点增大能源的利用率。它是把现有的数据作为训练样本,不断的进行自我学习,没有人为的干预,彻底地贯彻了强化学习的基础思想。实验结果表明,该模型与普通的控制策略相比,该模型在通常旅行中能够实现16.3%的能源节省。此外,还实现了具有决斗结构的双重深度Q网络(DDQN),并与DQN在训练过程中的收敛速度方面进行了比较[13]。
JoohyunWoo等提出了一种基于深度强化学习(DRL)的无人飞行器(USV)路径跟踪控制器。所提出的控制器可以通过与附近环境的相互作用来自我开发车辆的路径跟随能力。DDPG算法,适用于捕获USV在路径跟踪试验期间的经验。提出了新的马尔科夫决策过程模型,该模型包括状态,动作和奖励公式,该模型专门针对USV路径跟踪问题而设计。控制策略经过路径跟踪模拟的反复试验训练。通过对USV的仿真和对全尺寸USV的自由运行测试,验证了该方法的路径跟踪和自学习能力[20]。
1.3 研究的基本内容
1.本文阐述了研究的背景和意义,并分析和研究了国内外研究文献,了解并深入学习强化学习,自主学习,朴素贝叶斯分类;
2.分析概述朴素贝叶斯算法,强化学习算法的定义、原理及特点;
3.收集制作一些简单的小游戏,了解游戏规则;
4.结合朴素贝叶斯算法和强化学习算法实现计算机独立主动学习小游戏规则,达到最好的成绩。
5.改变环境,利用算法进行实验并分析。
6.总结算法的实现情况,分析优缺点。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!