模型预测任务采样的元强化学习和域随机化训练方法

    公开(公告)号:CN119940483A

    公开(公告)日:2025-05-06

    申请号:CN202411934200.4

    申请日:2024-12-26

    Applicant: 清华大学

    Abstract: 本申请涉及一种模型预测任务采样的元强化学习和域随机化训练方法,其中,方法包括:构建在线构建的深度生成模型的风险随机函数,且确定其风险函数分布,并推断风险函数分布的近似后验;估算深度生成模型的函数后验分布,以构建目标采集函数,且利用目标采集函数在目标任务空间进行随机采样,得到后验任务自适应损失的预测值和对应的采集数据,并通过预测值和风险学习器预测采集数据的采集分数生成目标情节优化任务批次;确定机器学习器的域随机化和元强化学习更新规则,从而对机器学习器执行在目标零样本或目标小样本的自适应模型中的决策模型更新训练操作。由此,解决了现有技术难以在提高自适应鲁棒性的同时,改善模型的计算效率等问题。

    城市多水源原水系统应急调度方法和系统

    公开(公告)号:CN102156413A

    公开(公告)日:2011-08-17

    申请号:CN201010615281.3

    申请日:2010-12-30

    Applicant: 清华大学

    Abstract: 本发明提供了一种突发污染事故时城市多水源原水系统的应急调度方法,包括:S110:根据瞬时点源的河流一维水质模型确定水质污染浓度场的时空分布规律,获得下游取水口断面污染物浓度开始超标的时间以及超标持续时间;S120:根据上述数据、污染事故发生位置、污染物质的总量和原水系统当前的可用水量数据以及水厂原水需求量数据,评估当前原水系统是否处于安全状态;S130:采用模糊推理或预设的优化算法确定原水系统调度方案;S140:根据所确定的应急策略或者调度方案对原水系统进行调度。利用本发明,能够在应急条件下快速确定污染事故对原水系统的影响,并有针对性地确定合理的应急策略和优化的调度方案,最大限度地保障城市原水系统的安全性和可靠性。

    三维torus网中的无死锁自适应路由方法

    公开(公告)号:CN101335704B

    公开(公告)日:2011-05-11

    申请号:CN200810104405.4

    申请日:2008-04-18

    Applicant: 清华大学

    Inventor: 向东 陈振 王琦

    Abstract: 三维torus网络无死锁的自适应路由方法属于分布式高性能容错计算技术领域,其特征在于,将每条物理通道中分为两条虚拟通道,允许不同虚拟子网之间共享某些虚拟通道,这两条通道均为两向通道,并分配到三维torus网络的四个虚拟子网中,利用转弯模型避免了各子网内以及各子网间可能形成的死锁,并达到更高的自适应性。本发明与传统的Duato协议和GOAL方法相比,当标准化输入负载和网络中故障节点数提高时,我们的方法明显可以提高网络实际流量,并降低传输延迟,从而提高整个网络的传输性能。

    一种抑制交流变压器直流偏磁电流的装置

    公开(公告)号:CN100521434C

    公开(公告)日:2009-07-29

    申请号:CN200610011935.5

    申请日:2006-05-19

    Abstract: 本发明涉及一种抑制交流变压器直流偏磁电流的装置,属于输电设备技术领域。本装置串联于交流变压器的中性点与变电站地网之间,包括一个电阻器和一个保护器,电阻器和保护器相互并联。其中的保护器包括两个导电体和两个电极,两个导电体的一端分别与两个电极相连,导电体的另一端分别与电路相连接。两个电极之间留有间隙。本装置的优点是能够有效地降低超高压直流(HVDC)输电系统地中直流电流对交流变压器的影响。而且,由于本发明提出的保护器的耐受电流能力强,能够在很宽的范围(电流从500A至10kA)内保护电阻器,省去了大量的辅助保护元件,因此装置结构简单,工作可靠性高,不需要日常维护,其成本也很低。

    三维torus网中的无死锁自适应路由方法

    公开(公告)号:CN101335704A

    公开(公告)日:2008-12-31

    申请号:CN200810104405.4

    申请日:2008-04-18

    Applicant: 清华大学

    Inventor: 向东 陈振 王琦

    Abstract: 三维torus网络无死锁的自适应路由方法属于分布式高性能容错计算技术领域,其特征在于,将每条物理通道中分为两条虚拟通道,允许不同虚拟子网之间共享某些虚拟通道,这两条通道均为两向通道,并分配到三维torus网络的四个虚拟子网中,利用转弯模型避免了各子网内以及各子网间可能形成的死锁,并达到更高的自适应性。本发明与传统的Duato协议和GOAL方法相比,当标准化输入负载和网络中故障节点数提高时,我们的方法明显可以提高网络实际流量,并降低传输延迟,从而提高整个网络的传输性能。

    具有多次反射折叠光路结构的激光放大器及激光谐振腔

    公开(公告)号:CN100428586C

    公开(公告)日:2008-10-22

    申请号:CN200710001009.4

    申请日:2007-01-19

    Applicant: 清华大学

    Abstract: 本发明属于激光放大器及激光谐振腔技术领域,其特征在于,包括:两片曲面反射镜,以及位于两片曲面反射镜之间的激光增益介质,还可加有位于所述光路结构以外的谐振腔腔镜,该两片曲面反射镜相对倾斜放置,构成非望远非共焦结构,射入所述光路结构的激光束通过所述两个曲面反射镜多次反射形成折叠光路,多次经过增益介质,所述激光光束在所述两片曲面反射镜的其中一片上沿其光轴正入射并被反射,沿原光路返回,在增益介质中往返双程通过,也可斜入射并被反射,在增益介质中单程通过。本发明具有:元件少,结构简单,装调容易,对误差和扰动不敏感,易于实现高效率及高光束质量的输出等优点。

    神经网络预测代理的大语言模型预训练和主动微调方法

    公开(公告)号:CN119918583A

    公开(公告)日:2025-05-02

    申请号:CN202411941469.5

    申请日:2024-12-26

    Applicant: 清华大学

    Abstract: 本申请涉及语言处理技术领域,特别涉及一种神经网络预测代理的大语言模型预训练和主动微调方法,其中,方法包括:获取大语言模型的训练数据集,提取训练数据集中每个训练样本的低维数据表征,将低维数据表征输入代理神经网络,得到每个训练样本预测的损失函数值,作为每个训练样本在大语言模型中近似评估的损失值;基于损失函数值从多个训练样本中主动采样多个目标样本并标注,根据多个目标样本组成当前训练批次,基于当前训练批次对大语言模型进行预训练或主动微调,得到的最新批次损失函数数据集用于优化并更新代理神经网络。由此,解决了大语言模型的预训练或者大规模主动微调过程中遇到的样本效率和计算效率较低、自适应鲁棒性差等问题。

    离线强化学习中的双重轻微泛化方法、装置、设备及介质

    公开(公告)号:CN119476526A

    公开(公告)日:2025-02-18

    申请号:CN202411475137.2

    申请日:2024-10-22

    Applicant: 清华大学

    Abstract: 本申请涉及离线强化学习技术领域,特别涉及一种离线强化学习中的双重轻微泛化方法、装置、设备及介质,其中,方法包括:基于轻微泛化策略,获取离线数据集邻近区域的目标动作;利用目标动作确定轻微泛化的最大值,并将轻微泛化的最大值与目标样本内最大值融合至贝尔曼目标中,以获得改进的贝尔曼目标;利用改进的贝尔曼目标调整离线强化学习中的值函数高估放大效应,以获得离线强化学习的双重轻微泛化结果。由此,解决了相关技术中无法利用神经网络的泛化能力,导致离线数据利用率低,降低了强化学习算法的性能的问题。

Patent Agency Ranking