-
公开(公告)号:CN119312845A
公开(公告)日:2025-01-14
申请号:CN202411333423.5
申请日:2024-09-24
Applicant: 电子科技大学
IPC: G06N3/0455 , G01S7/38 , G06N3/092 , G06F18/241
Abstract: 本发明提供一种多功能雷达干扰决策网络编码方法,基于将单值线性数据编码映射到高维非线性空间以增强数据的特征表示能力和提高网络拟合能力的思想,通过设计变分自编码器进行状态编码统一输入维度,与现有方法相比提高了学习和收敛速度。另外,多功能雷达干扰决策在现实应用中通常缺失先验信息,未知的分布函数、转移概率和状态空间使得强化学习的奖励函数和折扣因子设计困难,对某些短期有害但长期有利的动作学习困难。针对这一问题,本发明设计了一种前向经验反馈机制,通过修改经验时序优化了经验积累的奖励回报函数。与现有方法相比,所提方法在不降低学习速度的条件下提高了网络鲁棒性。