基于强化学习的液压舵机壳体流道路径规划

时间：2025-08-20 16:57:46

关键字：液压流道规划机器学习 HPP0算法减材制造液压舵机壳体

手机看文章

扫描二维码
随时随地手机看文章

[导读]液压舵机壳体是航空液压操纵系统的核心零件 , 内部包含大量复杂流道。传统的流道路径人工设计方法效率低下 , 结果一致性差。针对该问题 , 提出了一种基于混合近端策略优化(HPP0算法)的流道路径规划算法。通过分析流道接口特征 ,设计智能体动作空间、状态空间和奖励函数等强化学习要素 ,基于此实现了流道路径的自动生成。最后 , 以某航空液压壳体为例 ,验证了该方法的可行性和有效性。

0引言

航空液压操纵系统是保障飞机飞行的基础功能系统,也是飞机综合作战效能的重要保障和核心载体^[1]。液压舵机壳体是飞行器液压作动系统的关键零部件,在有限空间内遍布数十条满足复杂液压介质传输需求的液压流道^[2]。流道路径规划指的是在液压舵机壳体设计空间内,寻找两个接口间的油路路径,该路径需要满足与其他流道间的最小间距、工艺性约束、功能性约束等一系列约束,本质上是一个多目标优化问题。传统的人工设计方式完全依赖设计人员经验,设计效率低下,且无法有效复用历史设计经验;遗传算法等虽然也可以解决此类问题,但设计空间大,需要长时间迭代,不利于对设计输入的快速响应。而强化学习通过神经网络学习规则和人工经验,对设计输入实现瞬间响应,更适合舵机壳体此类结构复杂且需要频繁调整输入的设计任务。因此,本文运用强化学习算法训练路径规划神经网络,实现流道路径的快速寻优,解决舵机壳体流道快速最优设计的难题。

1液压舵机壳体流道路径规划流程

舵机壳体的流道主要由油路接口和油路两部分组成,如图1所示。油路接口是舵机壳体与其他功能组件进行沟通的接口,有壳体表面接口和环槽接口、油路沟通接口三种。流道接口的参数包括接口的安装坐标、安装方向、长度、直径。油路是两个流道接口之间的沟通通道,其参数包括油路的起点接口坐标、终点接口坐标、油路的拐点坐标及油路直径。流道的路径规划本质上就是在已知接口参数及油路起点、终点和直径(下称“流道设计任务”)的基础上,寻找油路拐点的过程。

基于强化学习的液压舵机壳体流道路径规划

流道路径可简化为流道起点、流道终点及一系列拐点构成的点集。利用强化学习算法进行流道路径规划的流程如图2所示,根据设计任务确定流道的起点和终点,随后路径规划智能体对自身状态进行感知,得到当前的状态信息。将状态信息输入强化学习网络,在路径规划智能体动作空间中选择智能体的下一步动作,得到流道的拐点坐标。若拐点坐标与终点不重合,则智能体继续感知环境,生成新的拐点,直到拐点与终点重合,输出流道路径点集。

基于强化学习的液压舵机壳体流道路径规划

2路径规划智能体的状态空间构建

状态空间指的是智能体在与环境交互过程中可以获取的信息集合,是智能体获取信息、学习和做出决策的基础。状态空间包含沿每个组合方向(θ,φ)的障碍物距离及终点位置。智能体对环境的观测信息矩阵obs表示为:

基于强化学习的液压舵机壳体流道路径规划

式中:R^uintx'表示各扫描方向在x'方向上的单位分量构成的矩阵;R^uinty'表示各扫描方向在y'方向上的单位分量构成的矩阵;R^uintz'表示各扫描方向在z'方向上的单位分量构成的矩阵;Rbarrier表示各扫描方向上到障碍物的距离构成的矩阵;Rgoal表示各扫描方向上到终点区域的距离构成的矩阵。

则智能体的状态空间state可表示为:

state={obs,Nmax,Nnow,Rmin} (2)

式中:Nmax表示当前任务的智能体最大行动次数,该值与接口的位置有关;Nnow表示智能体当前的行动次数;Rmin表示当前行动的最小前进步长。

3路径规划智能体的动作空间构建

智能体的动作空间指的是智能体可以采取的所有动作的集合。智能体在三维空间内以第一人称基于球坐标进行运动。运动模型基于球坐标系C3 (θ,φ,R),壳体空间基于全局直角坐标系C1(x,y,z),为了将C3中的运动转换为C1中的路径点及路径向量,引入了与C3相对应局部直角坐标系C2(x',y',z')及C2→C1的坐标转换矩阵T。可以得到三组坐标系的定义:

1)全局坐标系C1 (x,y,z),位于坐标原点。

2)局部坐标系C2(x',y',z'),位于智能体当前位置,y/轴为智能体的当前前进方向,x'轴平行于XoY平面。

3)球坐标系C3(θ,φ,R),位于智能体当前位置。其中θ为x'→y'轴的夹角,φ为y'→z'轴的夹角。

基于上述坐标系,对智能体的三个运动维度(θ,φ,R)的取值进行如下定义:θ和φ为0°~180°之间、公差为5°的离散角度;R为大于0小于1的连续实数。由于智能体的动作最终表现为拐角和前进步长,为了便于计算,将智能体的动作空间简化为拐角β和步长R,其中β为θ维度和φ维度组合后的方向与前一段油路的夹角。

4流道路径规划的奖励函数设计

奖励函数在强化学习过程中主要用于评价当前动作并指导网络更新。由于本研究中智能体存在多个动作,评分应当充分反映各子动作独立的评价及其综合评价,以指导各网络充分学习经验。流道评分Rew的计算方法如下:

基于强化学习的液压舵机壳体流道路径规划

式中:i(i=1，…，n)表示当前轮次的第i次行动;Rewi为智能体单步奖励;Rewstep为步长奖励;Rewangle为角度奖励;Rewstate为状态奖励;a、b均为系数。

Rewstep用来评价动作R，计算方式为:

基于强化学习的液压舵机壳体流道路径规划

Rewangle用来评价组合动作(θ，φ)，计算方式如下:

基于强化学习的液压舵机壳体流道路径规划

式中:β为有效(θ，φ)组合后的角度。β越接近90°或0°，评分越高。

Rewstate对智能体是否完成任务进行奖励，计算方式为:

基于强化学习的液压舵机壳体流道路径规划

5路径规划网络的构建及训练

路径规划网络是路径规划智能体的大脑，用来

分析状态信息，选择合适的动作。路径规划网络由FeatureExtractor、DiscreteActor网络、continuesActor网络及critic网络构成，如图3所示。其中Feature Extractor用来对状态信息进行降维处理，提取关键特征;DiscreteActor网络用来生成离散动作β;continuesActor网络用来生成连续动作R;critic网络分析动作的评价结果，指导网络更新^[3]。

基于强化学习的液压舵机壳体流道路径规划

在完成网络构建后，对路径规划网络进行训练。通过在立方体表面随机寻找两个接口的位置，在立方体内部随机生成障碍物路径来为智能体的训练环境产生随机性，以保证智能体在各种复杂情况下学会最优策略。在训练20 000轮后，智能体的平均每轮奖励收敛于10左右(图4);在容量为1000的验证集上，预测准确率稳定在90%左右(图5)。

基于强化学习的液压舵机壳体流道路径规划

6测试及结果分析

样例的设计空间为一个立方体空间,长300 MM,宽150 MM,高150 MM,环境中包含2个主阀孔(MH)和4个接口，如图6所示，流道定义信息如表1所示，算法输出的流道路径如表2所示。结合特征建模工具，本算法可以将单条流道的设计建模时间压缩到10 s以内，与人工设计建模相比，时间缩短了70%。

基于强化学习的液压舵机壳体流道路径规划

系统输出的流道骨架如图7所示,建模后得到的流道模型如图8所示。以流道1201为例,若沿常规的直线路径,则会与1301发生干涉(图9),本文算法输出了非对心的流道路径,满足了流道1201与1301之间的最小流道间距约束。

基于强化学习的液压舵机壳体流道路径规划

7 结论

本文通过分析液压舵机壳体流道设计原理及流道建模特征,提出了一套适合强化学习的流道设计模型。通过分析流道及其接口特征,分析了流道路径规划的输入和输出,构建了流道路径规划算法的基

本流程。基于现有设计经验及约束,形成了智能体的动作空间、状态空间及评价奖励函数,搭建了路径规划网络,实现了舵机壳体流道路径的快速生成。最终通过实例验证,设计结果满足设计要求与设计约束,取得了较好的设计结果。本研究在保证设计质量的前提下,极大地减少了液压流道路径的设计工作量,将设计建模时间缩短了70%。

[参考文献]

[1]郭生荣.航空机电系统综合技术发展分析[J].航空科学技术,2013(5):5—10.

[2]郭生荣.航空机电系统综合技术发展[J].航空精密制造技术,2016,52(1):1—6.

[3]FANZ,SUR,ZHANGWN,etAl.HybridActor—critic ReinforceMent LeArning in PArAMeterized Action SPAce[c]//IJcAI,19:Proceedings of the 28th InternAtionAl Joint conference on Artificial Intelligence,2019: 2279—2285.

《机电信息》2025年第14期第12篇