一种基于OC-CDRL的三变跳频图案智能决策方法

    公开(公告)号:CN118232956A

    公开(公告)日:2024-06-21

    申请号:CN202410307442.4

    申请日:2024-03-18

    Abstract: 本发明公开了一种基于OC‑CDRL的三变跳频图案智能决策方法。本发明通过状态‑动作‑奖励三元组构造将“三变”跳频图案决策问题建模为马尔可夫决策过程。设计的跳频频率根据伪随机序列选择的小频段范围内连续变化,跳频速率和瞬时带宽离散取值。本发明将TD3和D3QN算法相结合,分别设计了相应的状态、动作和奖励,用于处理连续和离散的动作空间。在OC‑CDRL的D3QN模块中,提出了一种OES策略进行动作选择,提高探索程度。此外,通过对经验回放缓冲区之外的状态‑动作对进行保守估计来改进损失函数,减少过高估计,提高算法的稳定性和收敛性。本发明方法产生的三变跳频图案有效地避开了大部分干扰较大的区域,并展现出更好的适应性和抗干扰能力。

    基于HAQL-PSO的跳频系统智能抗干扰决策方法

    公开(公告)号:CN112543038B

    公开(公告)日:2022-03-11

    申请号:CN202011203291.6

    申请日:2020-11-02

    Abstract: 本发明公开了一种基于HAQL‑PSO的跳频系统智能抗干扰决策方法。本发明将全局和个体最优解的引导机制引入Q学习过程,设计启发式函数用于动作选择策略;将Sigmoid函数用于启发式Q学习中;针对跳频通信中可能出现的干扰及可调节的参数,设计了状态‑动作空间及奖励函数。然后根据频谱感知结果预测未来短时间内的频谱状态。在初始化Q值、启发式函数、其他参数及初始状态后,根据动作选择策略选择最佳动作并执行,得到下一状态。对于当前的状态和动作计算奖赏函数并更新启发式函数和Q值。当达到总迭代次数时,结束学习,获得Q表用于指导参数调整,否则,更新状态和温度参数并进入下一次迭代。本发明解决了Q学习中探索和利用的平衡问题。

    基于HAQL-PSO的跳频系统智能抗干扰决策方法

    公开(公告)号:CN112543038A

    公开(公告)日:2021-03-23

    申请号:CN202011203291.6

    申请日:2020-11-02

    Abstract: 本发明公开了一种基于HAQL‑PSO的跳频系统智能抗干扰决策方法。本发明将全局和个体最优解的引导机制引入Q学习过程,设计启发式函数用于动作选择策略;将Sigmoid函数用于启发式Q学习中;针对跳频通信中可能出现的干扰及可调节的参数,设计了状态‑动作空间及奖励函数。然后根据频谱感知结果预测未来短时间内的频谱状态。在初始化Q值、启发式函数、其他参数及初始状态后,根据动作选择策略选择最佳动作并执行,得到下一状态。对于当前的状态和动作计算奖赏函数并更新启发式函数和Q值。当达到总迭代次数时,结束学习,获得Q表用于指导参数调整,否则,更新状态和温度参数并进入下一次迭代。本发明解决了Q学习中探索和利用的平衡问题。

Patent Agency Ranking