基于时间反演对称性的离线强化学习方法及装置

    公开(公告)号:CN119337960A

    公开(公告)日:2025-01-21

    申请号:CN202411363121.2

    申请日:2024-09-27

    Inventor: 詹仙园 成鹏 张策

    Abstract: 本发明提供一种基于时间反演对称性的离线强化学习方法及装置,其中的方法包括:获取当前时刻状态,并将当前时刻状态编码为当前时刻状态的低维表示;基于预先训练的策略网络,根据当前时刻状态的低维表示,预测下一时刻状态的低维表示;基于预先训练的逆动力学模型,根据当前时刻状态的低维表示和下一时刻状态的低维表示,预测当前时刻状态对应动作的低维表示;根据当前时刻状态对应动作的低维表示,获取当前时刻状态对应的目标动作;其中,策略网络和逆动力学模型基于时间反演对称性约束进行训练优化得到,时间反演对称性约束基于前向动力学模型和反向动力学模型进行设置得到。该方法通过在隐空间中提取数据的时间反演对称性这一性特性,并基于时间反演对称性约束训练优化策略网络和逆动力学模型,使得最终隐空间中低维表示的预测更加可靠和稳定,有效提升了强化学习算法在小样本场景下的性能表现,并提升了样本利用率。

    基于动力学对称性建模的离线强化学习方法及装置

    公开(公告)号:CN115983400A

    公开(公告)日:2023-04-18

    申请号:CN202211574784.X

    申请日:2022-12-08

    Abstract: 本发明提供一种基于动力学对称性建模的离线强化学习方法及装置,其中的方法包括:获取离线数据集;通过编码器和双向动力学模型对离线数据集中的原始状态‑动作对进行处理,得到低维状态‑动作对和当前时间反演状态变化量;将低维状态‑动作对输入至价值网络,得到原始状态‑动作对所对应的状态‑动作价值函数值。该方法利用双向动力学模型对离线数据进行处理,从离线数据中提取出有效信息即时间反演状态变化量,这些信息具备极高的泛化性和可解释性,以该有效信息作为价值网络的输入而得到的状态‑动作价值函数值,能够有效地辅助强化学习得到一个最大化长期奖励的策略,实现行为策略的优化。

    用于骨组织工程的微支架的制备方法和应用

    公开(公告)号:CN100464790C

    公开(公告)日:2009-03-04

    申请号:CN200610113464.9

    申请日:2006-09-29

    Applicant: 清华大学

    Abstract: 本发明用于骨组织工程的微支架及其制备方法和应用,属于医学用材料技术领域。该微支架的外形为球形,该球径在利于细胞在其表面黏附和生长的50~400μm范围内,多个微支架的平均球径为100~350μm。其制备方法为:将壳聚糖粉溶于乙酸水溶液中,加入交联剂水溶液,再将倾倒于非挥发性油性液体分散介质中形成乳液;加入交联剂水溶液进行交联;经氯仿清洗、过滤、乙醇抽提、干燥后得到球形壳聚糖微支架。本发明所制备的微支架材料表面大小和结构适宜细胞生长,具有良好的细胞相容性,植入体内后可降解,因此可用作骨组织工程的支架材料,同时还可用于药物缓释载体等,在临床医学上具有非常广阔的应用前景。

    用于骨组织工程的微支架及其制备方法和应用

    公开(公告)号:CN1931378A

    公开(公告)日:2007-03-21

    申请号:CN200610113464.9

    申请日:2006-09-29

    Applicant: 清华大学

    Abstract: 本发明用于骨组织工程的微支架及其制备方法和应用,属于医学用材料技术领域。该微支架的外形为球形,该球径在利于细胞在其表面黏附和生长的50~400μm范围内,多个微支架的平均球径为100~350μm。其制备方法为:将壳聚糖粉溶于乙酸水溶液中,加入交联剂水溶液,再将倾倒于非挥发性油性液体分散介质中形成乳液;加入交联剂水溶液进行交联;经氯仿清洗、过滤、乙醇抽提、干燥后得到球形壳聚糖微支架。本发明所制备的微支架材料表面大小和结构适宜细胞生长,具有良好的细胞相容性,植入体内后可降解,因此可用作骨组织工程的支架材料,同时还可用于药物缓释载体等,在临床医学上具有非常广阔的应用前景。

Patent Agency Ranking