训练目标检测模型的方法及装置
    1.
    发明公开

    公开(公告)号:CN119445190A

    公开(公告)日:2025-02-14

    申请号:CN202411314309.8

    申请日:2024-09-19

    Abstract: 本说明书实施例涉及训练目标检测模型的方法及装置,方法包括:获取基于第一训练集训练得到的第一目标检测模型,第一训练集中的各个图像属于K个物体类别;获取第二训练集,其中任一图像具有不同于K个物体类别的标签类别;对于第二训练集中任意的第一图像,确定其标签类别所归属的超类类别,将超类类别中包含的其它物体类别确定为第一图像的混淆类别;混淆类别属于K个物体类别;针对第一图像,确定使得目标函数最小化的扰动值,从而得到施加该扰动值的第一扰动图像;基于第二训练集中各个图像及其对应的扰动图像,确定第二扩展训练集,利用第二扩展训练集训练第一目标检测模型,得到第二目标检测模型。

    基于大语言模型和强化学习的决策支持系统及方法

    公开(公告)号:CN119150913A

    公开(公告)日:2024-12-17

    申请号:CN202411639883.0

    申请日:2024-11-18

    Applicant: 浙江大学

    Abstract: 本申请涉及强化学习技术领域,提供了一种基于大语言模型和强化学习的决策支持系统及方法,其首先获取强化学习的源状态表征,并利用外部知识库对其进行数据增强,随后将增强后的状态表征转换为预设大语言模型的状态表征,接着将该状态表征输入预设大语言模型以生成强化学习智能体增强的状态表征函数和内在奖励函数,基于这两个函数更新维护利普西茨数组,以产生满足平滑条件的状态表征,最后,将满足条件的状态表征输入分类器决策模型,得出决策结果。这样,通过引入外部信息,有助于提升强化学习的源状态表征质量,从而提高智能体的决策能力和适应性。

    一种用于小样本类增量学习的多粒度快慢学习方法

    公开(公告)号:CN112633495B

    公开(公告)日:2023-07-18

    申请号:CN202011504238.X

    申请日:2020-12-18

    Applicant: 浙江大学

    Abstract: 本发明公开了一种用于小样本类增量学习的多粒度快慢学习方法,方法具体包括以下步骤:连续获取多个任务的数据流,在每个类增量学习会话只能获得一个任务的数据;在第一个增量学习会话中,获取第一个任务的数据,学习得到基任务网络模型,慢更新模型和快更新模型都以基任务模型作为初始化;在下一个增量学习会话中获取新任务数据,以慢的多粒度学习方法更新慢更新模型,以快的多粒度学习方法更新快更新模型;每次增量学习会话后,通过慢更新模型得到慢更新特征空间,通过快更新模型得到快更新特征空间,利用两个空间得到的组合空间进行分类。本发明构建的组合特征空间能有效地平衡旧知识保留和新知识适应,是一种简单有效的小样本增量学习方法。

    基于工具调用模型的工具自动调用方法、系统及设备

    公开(公告)号:CN119201297A

    公开(公告)日:2024-12-27

    申请号:CN202411297988.2

    申请日:2024-09-14

    Applicant: 浙江大学

    Abstract: 本申请涉及大模型技术领域,特别是涉及一种基于工具调用模型的工具自动调用方法、系统及设备,所述方法包括:获取训练数据样本集,所述训练数据样本集包括用户调用请求样本数据及其分别对应的标签;基于所述训练数据样本集,利用动态损失缩放函数对待训练模型进行训练;在训练过程中,利用输出评估模型对所述待训练模型输出的工具调用初始结果进行评估,并根据评估结果对所述动态损失缩放函数中的多个系数进行动态调整后,得到工具调用模型;将用户调用请求数据输入所述工具调用模型,输出工具调用结果。本申请显著提升模型的整体性能与稳定性。

    蒙特卡洛树搜索方法、装置及计算机设备

    公开(公告)号:CN119227821A

    公开(公告)日:2024-12-31

    申请号:CN202411323359.2

    申请日:2024-09-20

    Applicant: 浙江大学

    Abstract: 本申请涉及一种蒙特卡洛树搜索方法、装置及计算机设备。方法包括:获取待搜索根节点的第一状态信息;控制第一线程池中的至少一个空闲线程,基于第一状态信息确定扩展子节点,并基于扩展子节点的第二状态信息,生成扩展子节点的模拟任务;控制第二线程池中的至少一个空闲线程,执行模拟任务并生成反向传播任务,反向传播任务包括模拟奖励值;控制第一线程池中的至少一个空闲线程,执行反向传播任务,并根据模拟奖励值更新第二状态信息,第一线程池中的至少一个空闲线程以及第二线程池中的至少一个空闲线程分别分配至处理器的相应核心且由处理器并行执行;重复执行上述步骤,直至满足预设搜索条件后,基于第二状态信息确定搜索结果。

    基于联盟链架构的动态分片处理方法、装置及存储介质

    公开(公告)号:CN117216325A

    公开(公告)日:2023-12-12

    申请号:CN202311136884.9

    申请日:2023-09-04

    Applicant: 浙江大学

    Abstract: 本申请涉及区块链领域,特别是涉及一种基于联盟链架构的动态分片处理方法、装置、联盟链架构、计算机设备及存储介质。所述方法包括:基于输入联盟链的历史交易数据,建模生成交易图;对所述交易图中的点进行聚类分析,得到初始分类结果;基于所述初始分类结果,对所述交易图中的点进行匹配,得到初始匹配结果;以目标分片的数量为约束,以所有目标分片的理论吞吐量最大化为目标,对所述初始分配结果进行优化,输出所述交易图的分片策略。本发明对各目标分片的维护范围进行动态调整,以降低联盟链架构的跨分片交易率。

    一种偏差上下文信息修正的增量语义分割方法

    公开(公告)号:CN114663657A

    公开(公告)日:2022-06-24

    申请号:CN202210249636.4

    申请日:2022-03-14

    Applicant: 浙江大学

    Abstract: 本发明公开了一种偏差上下文信息修正的增量语义分割方法。该方法首先获取多个类别的语义分割数据流,并划分为多个训练数据集;在第一个增量语义分割学习步骤中,以一个训练数据集学习得到初始语义分割网络模型;在下一个增量语义分割学习步骤中,以擦除新类像素点的方法对新获得的包含新类别的训练数据集,产生偏差上下文信息修正的图片对,构建偏差上下文信息修正的训练数据集,基于偏差上下文信息修正的训练数据集,以偏差上下文信息修正和自适应类平衡的学习方法更新最新的增量语义分割网络模型。本发明能有效地修正旧类像素点的偏向新类的上下文信息和缓解偏差的类分布问题,减少对旧类知识的遗忘和对背景类别的语义漂移。

    一种用于小样本类增量学习的多粒度快慢学习方法

    公开(公告)号:CN112633495A

    公开(公告)日:2021-04-09

    申请号:CN202011504238.X

    申请日:2020-12-18

    Applicant: 浙江大学

    Abstract: 本发明公开了一种用于小样本类增量学习的多粒度快慢学习方法,方法具体包括以下步骤:连续获取多个任务的数据流,在每个类增量学习会话只能获得一个任务的数据;在第一个增量学习会话中,获取第一个任务的数据,学习得到基任务网络模型,慢更新模型和快更新模型都以基任务模型作为初始化;在下一个增量学习会话中获取新任务数据,以慢的多粒度学习方法更新慢更新模型,以快的多粒度学习方法更新快更新模型;每次增量学习会话后,通过慢更新模型得到慢更新特征空间,通过快更新模型得到快更新特征空间,利用两个空间得到的组合空间进行分类。本发明构建的组合特征空间能有效地平衡旧知识保留和新知识适应,是一种简单有效的小样本增量学习方法。

    一种偏差上下文信息修正的增量语义分割方法

    公开(公告)号:CN114663657B

    公开(公告)日:2025-04-18

    申请号:CN202210249636.4

    申请日:2022-03-14

    Applicant: 浙江大学

    Abstract: 本发明公开了一种偏差上下文信息修正的增量语义分割方法。该方法首先获取多个类别的语义分割数据流,并划分为多个训练数据集;在第一个增量语义分割学习步骤中,以一个训练数据集学习得到初始语义分割网络模型;在下一个增量语义分割学习步骤中,以擦除新类像素点的方法对新获得的包含新类别的训练数据集,产生偏差上下文信息修正的图片对,构建偏差上下文信息修正的训练数据集,基于偏差上下文信息修正的训练数据集,以偏差上下文信息修正和自适应类平衡的学习方法更新最新的增量语义分割网络模型。本发明能有效地修正旧类像素点的偏向新类的上下文信息和缓解偏差的类分布问题,减少对旧类知识的遗忘和对背景类别的语义漂移。

    强化学习方法、动作生成系统、计算机设备和存储介质

    公开(公告)号:CN119358629A

    公开(公告)日:2025-01-24

    申请号:CN202411346527.X

    申请日:2024-09-25

    Applicant: 浙江大学

    Abstract: 本申请涉及一种强化学习方法、动作生成系统、计算机设备和存储介质。所述方法包括:对预设时间范围内的历史状态和动作信息进行编码,得到编码轨迹信息;基于所述编码轨迹信息和预设的深度学习网络,生成目标动作;基于所述目标动作以及与所述目标动作对应的当前状态,确定所述目标动作的预测回报;基于所述当前状态下的动作概率分布,确定探索能力调整值;基于所述预测回报和探索能力调整值,对所述深度学习网络的参数进行调整。采用本方法能够达到提高策略生成的鲁棒性的效果。

Patent Agency Ranking