人工智能技术在宽域飞行器控制中的应用

2023-12-13 12:34:50

近年来，以空天飞行器、高超声速飞行器等 ?1
为典型代表的宽域飞行器蓬勃发展，如图1所示，其
不仅对高端装备制造、空间信息以及太空经济等领
域产生辐射带动作用，进一步提升了中国在航空航
天领域的自主创新能力，同时也催生出新质作战能
力，带来战争模式的巨变，成为维护国家安全的战略
重器‘2。。
由于宽域飞行器所覆盖的空域范围从几千米到
上百千米，马赫数从0跨越至25甚至更高，外形多
收稿日期：2023．02．24；修回日期：2023—03—10
采用大升力体及复杂翼舵构型，飞行器动力系统与
机体高度融合设计，内外流场耦合特性显著，如图2
所示；严酷气动加热会引发结构弹性变形，进一步加
剧气动／热／结构／控制的耦合，使动力学特性更为复
杂；同时由于目前地面风洞难以准确模拟高马赫飞
行环境，使得控制系统所依赖的气动参数存在较大
的天地差异旧1。因此，该类飞行器具有显著的强耦
合、强非线性、强时变特征，难以建立较为准确的数
学模型描述，对控制系统设计提出了很多新问题与
新挑战，需要持续开展控制新理论与新方法的研究
探索。
万方数据
第4期魏毅寅等：人工智能技术在宽域飞行器控制中的应用 531
图1典型宽域飞行器
Fig．1 Typical wide-field vehicles
(a)复杂外流场
图2复杂内外流耦合特性
Fig．2 Coupling of intemal and extemal flow fields
近年来，随着人工智能技术的发展和广泛应用，
深度神经网络展现出良好的对多维复杂特征的泛化
表达能力，使得以深度学习为代表的智能技术在图
像处理、语音识别等领域得到了成功的应用HJ，因
此开展人工智能技术在飞行控制中的应用研究，有
望为解决宽域飞行器高品质控制问题提供新的技术
途径。
1宽域飞行器控制技术研究现状及局限性分析
为了增强控制系统对宽域飞行器复杂特性
(强耦合、强非线性、强时变、大不确定性)的适应
能力，提升控制品质，国内的研究学者开展了广泛
深人的探索和研究，主要采用的技术途径可以分
为两种。
第一种途径是从增强系统鲁棒性着手，利用增
益调度等措施，确保系统稳定裕度，提升对被控对象
模型不确定性的容忍度。
基于经典控制理论的PID控制方法，不依赖被
控对象的精确动力学模型，易于实现，且利用幅值裕
度和相位裕度可量化评估控制器鲁棒性能，是目前
工程中应用最为广泛的控制方法。为增强控制系统
对复杂特性的适应能力，会根据飞行器在不同任务
特征点的特性，利用可观测参数对PID控制增益进
行实时调度p1。
基于现代控制理论的鲁棒控制方法，其核心思
想是将模型不确定视为对系统标称条件的扰动，在
保留系统精确建模部分稳定性的同时，保留一定的
稳定裕度，从而保证当系统存在模型不确定和外部
扰动的情况下整个系统的稳定∞J。
第二种途径是从提升系统自适应性着手，利用
实时状态观测与估计，辨识出被控对象关键特性，提
高对飞行器模型的认知度。
白抗扰控制方法主要以PID控制构型为基础，
对于具有大不确定性和复杂非线性等特性的飞行
器，考虑到飞行过程中所受的外界干扰等影响，采用
扩张状态观测器对被控对象的状态和干扰进行观
测，通过状态误差反馈，对不确定干扰因素进行补
偿，从而实现抑制干扰和精确跟踪指令【8 J。
非线性动态逆控制方法的核心为通过非线性动
态逆来消除系统中存在的非线性，从而实现系统的
“伪线性化”，在此基础上可以采用其他线性化和非
线性化方法设计系统控制器，实现对非线性系统的
控制。针对被控对象存在的模型不确定性和外界干
扰，可以利用状态观测对模型进行辨识补偿，再利用
非线性动态逆方法获得理想的控制品质 ?0|。
上述两种途径能够在一定程度上提高控制系统对
复杂特性的适应能力，但是随着宽域飞行器任务剖面
万方数据
532 宇航学报第44卷
更加多样，飞行空域速域跨度更广，外形特性更为复
杂，现有的控制方法逐渐暴露出一定的应用局限陛。
1)对于利用飞行特征参数进行增益调度的途
径，针对特性复杂度较高的宽域飞行器，可能对应同
一飞行特征点，动力学特性存在较大范围的变化，且
表征该变化的特性参数为隐性，不可观测，因此会导
致无法对控制增益进行有效的调度 ?1|。以某一飞
行特征点为例，当在该特征点气动压心存在较大范
围的不确定性时，虽然控制参数能够保证在基准状
态下性能稳定，但是由于压心变化特性不可观测，控
制参数无法跟随该状态变化做出及时调整，导致控
制参数与飞行器特性不匹配，从而出现稳定裕度下
降、控制失稳的现象。两种状态下的定点时域响应
情况如图3所示。
图3定点状态下时域响应对比
Fig．3 Comparison of step responses
2)对于利用实时状态观测和补偿来提升对模
型认知度的途径，由于采用的状态观测器自身也需
要依靠基础的被控对象模型建立状态方程和观测方
程，但是当被控对象模型复杂度过高，难以直观采用
状态空间进行数学表达，因此建立状态观测器所使
用的模型相对真实模型存在偏差，进而影响其状态
估计与辨识的精度，大大削弱观测补偿效果，甚至可
能失效。
2人工智能技术在宽域飞行器控制中的应用研究
随着近年人工智能技术的飞跃发展，以机器学
习算法为代表的智能算法研究引领了第三次人工智
能浪潮，其中深度神经网络由于具备映射能力好、学
习能力强、适应性广、纯数据驱动等优点，在图像识
别、自然语言处理、健康医疗等任务中得到非常广泛
而成功的应用。作为机器学习中的重要组成分支，
强化学习针对马尔可夫决策问题，通过与被控对象
的不断交互和迭代学习，生成可供全局决策的最优
策略，可用于解决智能决策问题。而进一步将深度
神经网络与强化学习相结合，形成深度强化学习，更
适合解决复杂且难以建模的应用场景问题，围棋
AlphaZero使用的就是深度强化学习算法。
针对前述分析的现有控制方法在宽域飞行器控
制中可能存在的局限性，本文重点从两种技术途径
出发就人工智能技术在飞行控制中的应用开展研
究。第一种是基于智能特征辨识的控制方法，即利
用深度神经网络辨识飞行器隐性关键特征，实现控
制增益的精准调度，提升对不确定性的自适应能力；
第二种是基于深度强化学习的控制方法，利用深度
神经网络建立神经网络动力学对飞行动力学的映射
表达，以指令信号和实时状态为神经网络输入，以执
行机构控制信号为神经网络输出，实现“端对端”控
制，弱化对飞行器复杂动力学建模的依赖。以下结
合典型示例对两种途径的研究情况进行介绍。
2．1基于智能特征辨识的控制方法
仍以前述气动压心存在不确定性的情况为例，
当在相同飞行状态(相同的高度、速度、姿态)下，飞
行器气动压心可能存在较大范围变化时，由于压心
变化为隐性特征，不可观测，因此会造成控制增益无
法根据实际特性做出及时调整，从而导致控制性能
恶化，严重时可能出现失控的情况。为此，考虑利用
深度神经网络的泛化特征拟合能力，构建智能观测
器，对表征气动压心变化的动力系数进行辨识，并利
用辨识结果进行增益调度，以提升对飞行器特性的
大范围变化的适应能力。辨识原理如图4所示。
万方数据
第4期魏毅寅等：人工智能技术在宽域飞行器控制中的应用 533
图4基于智能特性辨识的控制方法原理图
Fig．4 Schematic diagram of the control method based on
intelligent characteristic identification
根据飞行动力学n2|，基于系数冻结和小扰动线
性化处理，可以得到飞行器纵向短周期扰动运动
方程：
了d2AO：。22学+。24△d+％幽：1厂2 022—矿+024触讹25酗=
警弘。△a怕，她 q’
A毋=A0-I-Ad
式中：△毋，A0，△d，A8：分别是俯仰角、弹道倾角、
攻角和升降舵舵偏角的扰动偏量；oII是动力系数：
Mz：g。12 miz022
2丁2可
蟛 57．3qslm；2
％2丁2—r
职。 57．3qslm；"2 (2)
％2了2—r —
P+P P-t-57．3qsc：
％。2百2——忑厂一
产 57．3qsc8，．；
035 2丽2—矿
式中：o：：为阻尼动力系数；口：。为静稳定动力系数；。笛
为操纵动力系数；口，。为法向力动力系数；口弘为舵面
动力系数。因为口M能够表征飞行器气动压心变化
的情况，因此将其作为神经网络辨识输出。
参数辨识网络设计为包含BatchNormal层的残
差网络，如图5所示。
特征输入网络输出
网一巨到一网一巨到一
图5参数辨识网络结构
Fig．5 Structure of the parameter identification network
通过对口M理论计算公式和气动参数影响因素
进行分析，确定。拼辨识网络的输入如表1所示。
表1辨识网络输入特征参数
Table 1 Input characteristic parameters of the
identification network
利用六自由度弹道仿真数据构建训练和测试样
本，对网络参数进行训练，将通过测试集测试的参数
辨识网络移植人六自由度弹道仿真中，静不稳定度
辨识结果如图6所示，辨识误差不大于10％。仿真
结果表明所设计的辨识网络能够实现较好的静稳定
度辨识性能，根据辨识结果实时调整控制参数，可有
效提高现有控制方法对不确定度的适应能力。
2．2基于深度强化学习的控制方法
基于深度强化学习的智能控制方法是直接将深
度神经网络作为控制器，利用控制网络与训练环境
的交互产生训练数据，并按照设计的评价准则逐步
改善网络的控制性能，最后学习到满足精度需求的
控制器。
万方数据
534 宇航学报第44卷
时问／s
a)a24预测结果
图6参数辨识结果
Fig．6 Results of parameter identification
基于深度强化学习的智能控制方法分为地面训
练阶段和线上部署阶段两个环节。控制系统原理如
图7所示。
工作原理为策略网络以系统状态．s为输人生成
控制动作口，强化学习训练环境输入控制动作口后
进行动力学解算，并向策略网络反馈系统当前状态
s、当前控制动作o、奖励值r和下一时刻状态S一；评
估网络以系统状态Is为输入预测状态值口(s)。分
别利用行动值q(s，n)与理论状态值Yi更新策略网
络参数和评估网络参数，直至收敛获得满足精度要
求的控制网络参数。
E行控制th0
图7基于深度强化学习的智能控制原理图
Fig．7 Schematic diagram of the intelligent control method based on deep reinforcement learning
基于端到端架构的智能控制器，根据飞行状态
直接产生控制信号，不同的控制网络直接影响控制
器训练速度和控制精度。本文设计了一种卷积神经
网络，控制网络结构如图8所示。
输入特f『f．
5 9
Fig．8
●
撕愀l；” 堑?511qf。’渺输?
图8深度卷积神经网络结构图
Structure of deep convolutional neural network
在设计奖励值函数时要充分考虑控制网络所产
生控制信号的分布情况。设计的奖励函数如下：
R。=一sat(』旦专：}』丛，。，A，)
耻一t(岩，o，A：)
RI=R。+R。+R6
肛l=16，p2=180，肛3=20
Al=0．5，A2=0．25，A3=0．25
～．．、√j一％
万方数据
第4期魏毅寅等：人工智能技术在宽域飞行器控制中的应用 535
式中：sat(o，6，c)为饱和函数(对变量。进行范围判
断，b为函数输出下界，C为函数输出上界)；a。为攻
角指令；仗为实际攻角；∞：为俯仰角速度；嚣为t时
刻俯仰舵偏角；pi，A；为权重系数，地对相关奖励
函数参数进行归一化处理，提高算法收敛速度，选值
需要根据具体使用的参数物理意义确定，A i为不同
奖励部分的权重参数，用于平衡系统响应的稳定性
能和快速性能，需要根据具体控制问题的性能需求
进行设计；R。代表了由攻角偏差计算得到的奖励
值；R。为弹体角速度产生的奖励值；R。为综合考虑
连续5个时刻控制信号偏差的奖励值，控制信号偏
差越小，奖励值越大；R。为控制器与训练环境进行
一次交互所得奖励值。
设计攻角指令，利用深度神经网络控制器实现
对攻角指令跟踪，训练中攻角指令在4。～8。之间随
机取值，测试时选择4。一12。之间的指令进行仿真，
结果如图9所示。
图9角控制结果
Fig．9 Results of angle of attack control
可以看到神经网络控制器很好地跟踪了控制指
令，在控制器训练中，训练数据虽然仅仅覆盖到4。
攻角指令和8。攻角指令之间，但当给人训练数据范
围之外的12。攻角指令时，神经网络控制器仍能够
很好地实现控制指令跟踪，跟踪误差小于5％。仿
真结果表明，神经网络控制器可以实现飞行器姿态
稳定控制，且具有一定的泛化性能。
3未来持续研究方向展望
人工智能技术与宽域飞行器控制技术相融合具
有显著的学术和应用前景，但是在探索之路上还应
保持清醒的认识，不能过度神话人工智能技术的能
力，应重点围绕经典动力学、飞行控制技术与人工智
能技术的创新性结合，面向未来真正的转化应用，持
续探索推进。以下结合目前的研究进展，提出几点
未来需要进一步深入研究的方向展望。
1)加强智能动力学建模技术研究
宽域飞行器控制最大的难题在于其复杂动力学
特性的模型表达。目前进行探索的人工智能与飞行
控制的结合途径更多关注的是控制本身，而对动力
学部分关注比较少。由于飞行动力学具有比较成熟
的模型基本形式和解析表达式，这些先验信息的充
分利用可有效降低问题的复杂性和学习样本的需求
量，因此在动力学建模中融合人工智能技术相对控
制技术融合具有更加明显的优势，更加易于人工智
能算法学习的实现 ?5|。若在此方向可以结合飞行
动力学取得突破，则更加有望在实际飞行器中得到
应用。
2)加深在线“自学习”技术研究
人工智能当前仍处于计算智能阶段，在地面利
用样本数据对所构建的网络进行训练和测试，其中
样本数据能覆盖所认知的不确定范围，之后再移植
至飞行器进行在线应用 ?6|。训练好的神经网络只
在训练集和测试集范围内具有可靠的表现，无范围
外的推演能力。若飞行中遇到超出不确定认知范围
的情况，其控制特性将难以得到保证。因此，探索能
够在线实时进行网络参数学习调整的“自学习”技
术的可行性，是进一步提高飞行控制适应能力的有
效途径。
3)加快智能技术基础能力建设
智能化技术应用的硬件基础是嵌入式芯片，核
心是智能算法，因此需要开展能够支撑神经网络高
动态实时计算的自主可控智能芯片，构建自主可控
万方数据
536 宇航学报第44卷近年来，以空天飞行器、高超声速飞行器等 ?1
为典型代表的宽域飞行器蓬勃发展，如图1所示，其
不仅对高端装备制造、空间信息以及太空经济等领
域产生辐射带动作用，进一步提升了中国在航空航
天领域的自主创新能力，同时也催生出新质作战能
力，带来战争模式的巨变，成为维护国家安全的战略
重器‘2。。
由于宽域飞行器所覆盖的空域范围从几千米到
上百千米，马赫数从0跨越至25甚至更高，外形多
收稿日期：2023．02．24；修回日期：2023—03—10
采用大升力体及复杂翼舵构型，飞行器动力系统与
机体高度融合设计，内外流场耦合特性显著，如图2
所示；严酷气动加热会引发结构弹性变形，进一步加
剧气动／热／结构／控制的耦合，使动力学特性更为复
杂；同时由于目前地面风洞难以准确模拟高马赫飞
行环境，使得控制系统所依赖的气动参数存在较大
的天地差异旧1。因此，该类飞行器具有显著的强耦
合、强非线性、强时变特征，难以建立较为准确的数
学模型描述，对控制系统设计提出了很多新问题与
新挑战，需要持续开展控制新理论与新方法的研究
探索。
万方数据
第4期魏毅寅等：人工智能技术在宽域飞行器控制中的应用 531
图1典型宽域飞行器
Fig．1 Typical wide-field vehicles
(a)复杂外流场
图2复杂内外流耦合特性
Fig．2 Coupling of intemal and extemal flow fields
近年来，随着人工智能技术的发展和广泛应用，
深度神经网络展现出良好的对多维复杂特征的泛化
表达能力，使得以深度学习为代表的智能技术在图
像处理、语音识别等领域得到了成功的应用HJ，因
此开展人工智能技术在飞行控制中的应用研究，有
望为解决宽域飞行器高品质控制问题提供新的技术
途径。
1宽域飞行器控制技术研究现状及局限性分析
为了增强控制系统对宽域飞行器复杂特性
(强耦合、强非线性、强时变、大不确定性)的适应
能力，提升控制品质，国内的研究学者开展了广泛
深人的探索和研究，主要采用的技术途径可以分
为两种。
第一种途径是从增强系统鲁棒性着手，利用增
益调度等措施，确保系统稳定裕度，提升对被控对象
模型不确定性的容忍度。
基于经典控制理论的PID控制方法，不依赖被
控对象的精确动力学模型，易于实现，且利用幅值裕
度和相位裕度可量化评估控制器鲁棒性能，是目前
工程中应用最为广泛的控制方法。为增强控制系统
对复杂特性的适应能力，会根据飞行器在不同任务
特征点的特性，利用可观测参数对PID控制增益进
行实时调度p1。
基于现代控制理论的鲁棒控制方法，其核心思
想是将模型不确定视为对系统标称条件的扰动，在
保留系统精确建模部分稳定性的同时，保留一定的
稳定裕度，从而保证当系统存在模型不确定和外部
扰动的情况下整个系统的稳定∞J。
第二种途径是从提升系统自适应性着手，利用
实时状态观测与估计，辨识出被控对象关键特性，提
高对飞行器模型的认知度。
白抗扰控制方法主要以PID控制构型为基础，
对于具有大不确定性和复杂非线性等特性的飞行
器，考虑到飞行过程中所受的外界干扰等影响，采用
扩张状态观测器对被控对象的状态和干扰进行观
测，通过状态误差反馈，对不确定干扰因素进行补
偿，从而实现抑制干扰和精确跟踪指令【8 J。
非线性动态逆控制方法的核心为通过非线性动
态逆来消除系统中存在的非线性，从而实现系统的
“伪线性化”，在此基础上可以采用其他线性化和非
线性化方法设计系统控制器，实现对非线性系统的
控制。针对被控对象存在的模型不确定性和外界干
扰，可以利用状态观测对模型进行辨识补偿，再利用
非线性动态逆方法获得理想的控制品质 ?0|。
上述两种途径能够在一定程度上提高控制系统对
复杂特性的适应能力，但是随着宽域飞行器任务剖面
万方数据
532 宇航学报第44卷
更加多样，飞行空域速域跨度更广，外形特性更为复
杂，现有的控制方法逐渐暴露出一定的应用局限陛。
1)对于利用飞行特征参数进行增益调度的途
径，针对特性复杂度较高的宽域飞行器，可能对应同
一飞行特征点，动力学特性存在较大范围的变化，且
表征该变化的特性参数为隐性，不可观测，因此会导
致无法对控制增益进行有效的调度 ?1|。以某一飞
行特征点为例，当在该特征点气动压心存在较大范
围的不确定性时，虽然控制参数能够保证在基准状
态下性能稳定，但是由于压心变化特性不可观测，控
制参数无法跟随该状态变化做出及时调整，导致控
制参数与飞行器特性不匹配，从而出现稳定裕度下
降、控制失稳的现象。两种状态下的定点时域响应
情况如图3所示。
图3定点状态下时域响应对比
Fig．3 Comparison of step responses
2)对于利用实时状态观测和补偿来提升对模
型认知度的途径，由于采用的状态观测器自身也需
要依靠基础的被控对象模型建立状态方程和观测方
程，但是当被控对象模型复杂度过高，难以直观采用
状态空间进行数学表达，因此建立状态观测器所使
用的模型相对真实模型存在偏差，进而影响其状态
估计与辨识的精度，大大削弱观测补偿效果，甚至可
能失效。
2人工智能技术在宽域飞行器控制中的应用研究
随着近年人工智能技术的飞跃发展，以机器学
习算法为代表的智能算法研究引领了第三次人工智
能浪潮，其中深度神经网络由于具备映射能力好、学
习能力强、适应性广、纯数据驱动等优点，在图像识
别、自然语言处理、健康医疗等任务中得到非常广泛
而成功的应用。作为机器学习中的重要组成分支，
强化学习针对马尔可夫决策问题，通过与被控对象
的不断交互和迭代学习，生成可供全局决策的最优
策略，可用于解决智能决策问题。而进一步将深度
神经网络与强化学习相结合，形成深度强化学习，更
适合解决复杂且难以建模的应用场景问题，围棋
AlphaZero使用的就是深度强化学习算法。
针对前述分析的现有控制方法在宽域飞行器控
制中可能存在的局限性，本文重点从两种技术途径
出发就人工智能技术在飞行控制中的应用开展研
究。第一种是基于智能特征辨识的控制方法，即利
用深度神经网络辨识飞行器隐性关键特征，实现控
制增益的精准调度，提升对不确定性的自适应能力；
第二种是基于深度强化学习的控制方法，利用深度
神经网络建立神经网络动力学对飞行动力学的映射
表达，以指令信号和实时状态为神经网络输入，以执
行机构控制信号为神经网络输出，实现“端对端”控
制，弱化对飞行器复杂动力学建模的依赖。以下结
合典型示例对两种途径的研究情况进行介绍。
2．1基于智能特征辨识的控制方法
仍以前述气动压心存在不确定性的情况为例，
当在相同飞行状态(相同的高度、速度、姿态)下，飞
行器气动压心可能存在较大范围变化时，由于压心
变化为隐性特征，不可观测，因此会造成控制增益无
法根据实际特性做出及时调整，从而导致控制性能
恶化，严重时可能出现失控的情况。为此，考虑利用
深度神经网络的泛化特征拟合能力，构建智能观测
器，对表征气动压心变化的动力系数进行辨识，并利
用辨识结果进行增益调度，以提升对飞行器特性的
大范围变化的适应能力。辨识原理如图4所示。
万方数据
第4期魏毅寅等：人工智能技术在宽域飞行器控制中的应用 533
图4基于智能特性辨识的控制方法原理图
Fig．4 Schematic diagram of the control method based on
intelligent characteristic identification
根据飞行动力学n2|，基于系数冻结和小扰动线
性化处理，可以得到飞行器纵向短周期扰动运动
方程：
了d2AO：。22学+。24△d+％幽：1厂2 022—矿+024触讹25酗=
警弘。△a怕，她 q’
A毋=A0-I-Ad
式中：△毋，A0，△d，A8：分别是俯仰角、弹道倾角、
攻角和升降舵舵偏角的扰动偏量；oII是动力系数：
Mz：g。12 miz022
2丁2可
蟛 57．3qslm；2
％2丁2—r
职。 57．3qslm；"2 (2)
％2了2—r —
P+P P-t-57．3qsc：
％。2百2——忑厂一
产 57．3qsc8，．；
035 2丽2—矿
式中：o：：为阻尼动力系数；口：。为静稳定动力系数；。笛
为操纵动力系数；口，。为法向力动力系数；口弘为舵面
动力系数。因为口M能够表征飞行器气动压心变化
的情况，因此将其作为神经网络辨识输出。
参数辨识网络设计为包含BatchNormal层的残
差网络，如图5所示。
特征输入网络输出
网一巨到一网一巨到一
图5参数辨识网络结构
Fig．5 Structure of the parameter identification network
通过对口M理论计算公式和气动参数影响因素
进行分析，确定。拼辨识网络的输入如表1所示。
表1辨识网络输入特征参数
Table 1 Input characteristic parameters of the
identification network
利用六自由度弹道仿真数据构建训练和测试样
本，对网络参数进行训练，将通过测试集测试的参数
辨识网络移植人六自由度弹道仿真中，静不稳定度
辨识结果如图6所示，辨识误差不大于10％。仿真
结果表明所设计的辨识网络能够实现较好的静稳定
度辨识性能，根据辨识结果实时调整控制参数，可有
效提高现有控制方法对不确定度的适应能力。
2．2基于深度强化学习的控制方法
基于深度强化学习的智能控制方法是直接将深
度神经网络作为控制器，利用控制网络与训练环境
的交互产生训练数据，并按照设计的评价准则逐步
改善网络的控制性能，最后学习到满足精度需求的
控制器。
万方数据
534 宇航学报第44卷
时问／s
a)a24预测结果
图6参数辨识结果
Fig．6 Results of parameter identification
基于深度强化学习的智能控制方法分为地面训
练阶段和线上部署阶段两个环节。控制系统原理如
图7所示。
工作原理为策略网络以系统状态．s为输人生成
控制动作口，强化学习训练环境输入控制动作口后
进行动力学解算，并向策略网络反馈系统当前状态
s、当前控制动作o、奖励值r和下一时刻状态S一；评
估网络以系统状态Is为输入预测状态值口(s)。分
别利用行动值q(s，n)与理论状态值Yi更新策略网
络参数和评估网络参数，直至收敛获得满足精度要
求的控制网络参数。
E行控制th0
图7基于深度强化学习的智能控制原理图
Fig．7 Schematic diagram of the intelligent control method based on deep reinforcement learning
基于端到端架构的智能控制器，根据飞行状态
直接产生控制信号，不同的控制网络直接影响控制
器训练速度和控制精度。本文设计了一种卷积神经
网络，控制网络结构如图8所示。
输入特f『f．
5 9
Fig．8
●
撕愀l；” 堑?511qf。’渺输?
图8深度卷积神经网络结构图
Structure of deep convolutional neural network
在设计奖励值函数时要充分考虑控制网络所产
生控制信号的分布情况。设计的奖励函数如下：
R。=一sat(』旦专：}』丛，。，A，)
耻一t(岩，o，A：)
RI=R。+R。+R6
肛l=16，p2=180，肛3=20
Al=0．5，A2=0．25，A3=0．25
～．．、√j一％
万方数据
第4期魏毅寅等：人工智能技术在宽域飞行器控制中的应用 535
式中：sat(o，6，c)为饱和函数(对变量。进行范围判
断，b为函数输出下界，C为函数输出上界)；a。为攻
角指令；仗为实际攻角；∞：为俯仰角速度；嚣为t时
刻俯仰舵偏角；pi，A；为权重系数，地对相关奖励
函数参数进行归一化处理，提高算法收敛速度，选值
需要根据具体使用的参数物理意义确定，A i为不同
奖励部分的权重参数，用于平衡系统响应的稳定性
能和快速性能，需要根据具体控制问题的性能需求
进行设计；R。代表了由攻角偏差计算得到的奖励
值；R。为弹体角速度产生的奖励值；R。为综合考虑
连续5个时刻控制信号偏差的奖励值，控制信号偏
差越小，奖励值越大；R。为控制器与训练环境进行
一次交互所得奖励值。
设计攻角指令，利用深度神经网络控制器实现
对攻角指令跟踪，训练中攻角指令在4。～8。之间随
机取值，测试时选择4。一12。之间的指令进行仿真，
结果如图9所示。
图9角控制结果
Fig．9 Results of angle of attack control
可以看到神经网络控制器很好地跟踪了控制指
令，在控制器训练中，训练数据虽然仅仅覆盖到4。
攻角指令和8。攻角指令之间，但当给人训练数据范
围之外的12。攻角指令时，神经网络控制器仍能够
很好地实现控制指令跟踪，跟踪误差小于5％。仿
真结果表明，神经网络控制器可以实现飞行器姿态
稳定控制，且具有一定的泛化性能。
3未来持续研究方向展望
人工智能技术与宽域飞行器控制技术相融合具
有显著的学术和应用前景，但是在探索之路上还应
保持清醒的认识，不能过度神话人工智能技术的能
力，应重点围绕经典动力学、飞行控制技术与人工智
能技术的创新性结合，面向未来真正的转化应用，持
续探索推进。以下结合目前的研究进展，提出几点
未来需要进一步深入研究的方向展望。
1)加强智能动力学建模技术研究
宽域飞行器控制最大的难题在于其复杂动力学
特性的模型表达。目前进行探索的人工智能与飞行
控制的结合途径更多关注的是控制本身，而对动力
学部分关注比较少。由于飞行动力学具有比较成熟
的模型基本形式和解析表达式，这些先验信息的充
分利用可有效降低问题的复杂性和学习样本的需求
量，因此在动力学建模中融合人工智能技术相对控
制技术融合具有更加明显的优势，更加易于人工智
能算法学习的实现 ?5|。若在此方向可以结合飞行
动力学取得突破，则更加有望在实际飞行器中得到
应用。
2)加深在线“自学习”技术研究
人工智能当前仍处于计算智能阶段，在地面利
用样本数据对所构建的网络进行训练和测试，其中
样本数据能覆盖所认知的不确定范围，之后再移植
至飞行器进行在线应用 ?6|。训练好的神经网络只
在训练集和测试集范围内具有可靠的表现，无范围
外的推演能力。若飞行中遇到超出不确定认知范围
的情况，其控制特性将难以得到保证。因此，探索能
够在线实时进行网络参数学习调整的“自学习”技
术的可行性，是进一步提高飞行控制适应能力的有
效途径。
3)加快智能技术基础能力建设
智能化技术应用的硬件基础是嵌入式芯片，核
心是智能算法，因此需要开展能够支撑神经网络高
动态实时计算的自主可控智能芯片，构建自主可控
万方数据
536 宇航学报第44卷

文章来源:https://blog.csdn.net/qq_43471489/article/details/134943721
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！