-
公开(公告)号:CN117933069A
公开(公告)日:2024-04-26
申请号:CN202410021830.6
申请日:2024-01-05
Applicant: 之江实验室
IPC: G06F30/27 , G21B1/25 , G06F18/213 , G06N3/045 , G06N3/08 , G01T1/29 , G06F113/08
Abstract: 本说明书公开了一种基于等离子体的反演代理模型训练方法及装置,获取采样信号序列,该采样信号序列是预先在若干个采样时刻,对等离子体产生的软X波段辐射进行采样得到的,每个采样时刻对应的采样信号序列是在若干个采样位置,对等离子体产生的软X波段辐射进行采样得到的,获取该等离子体在每个采样时刻的辐射分布剖面标注。将采样信号序列输入第一特征提取层,得到第一信号特征,将第一信号特征输入第二特征提取层,得到第二信号特征。将第二信号特征输入结果预测层,得到结果预测层输出的每个采样时刻对应的第二信号特征的辐射分布剖面预测结果。根据辐射分布剖面预测结果与辐射分布剖面标注,确定损失,根据损失,对反演代理模型进行训练。
-
公开(公告)号:CN118839053A
公开(公告)日:2024-10-25
申请号:CN202411321148.5
申请日:2024-09-23
Applicant: 之江实验室
IPC: G06F16/951 , G06F16/955 , G06N3/0455 , G06F40/186
Abstract: 本申请涉及一种网页数据采集方法、系统、计算机设备和可读存储介质。该方法采集到的网页数据用于对目标领域的大语言模型进行预训练,所述方法包括:确定目标场景模板和目标关键词;将所述目标关键词填充到所述目标场景模板中,调用通用的大语言模型,生成多个搜索词句;调用搜索服务,基于所述搜索词句生成第一URL列表;基于爬虫技术和所述第一URL列表采集得到网页数据。采用本方法能够降低硬件资源消耗成本、人力成本以及提高预训练数据的获取效率。
-
公开(公告)号:CN117933069B
公开(公告)日:2024-07-12
申请号:CN202410021830.6
申请日:2024-01-05
Applicant: 之江实验室
IPC: G06F30/27 , G21B1/25 , G06F18/213 , G06N3/045 , G06N3/08 , G01T1/29 , G06F113/08
Abstract: 本说明书公开了一种基于等离子体的反演代理模型训练方法及装置,获取采样信号序列,该采样信号序列是预先在若干个采样时刻,对等离子体产生的软X波段辐射进行采样得到的,每个采样时刻对应的采样信号序列是在若干个采样位置,对等离子体产生的软X波段辐射进行采样得到的,获取该等离子体在每个采样时刻的辐射分布剖面标注。将采样信号序列输入第一特征提取层,得到第一信号特征,将第一信号特征输入第二特征提取层,得到第二信号特征。将第二信号特征输入结果预测层,得到结果预测层输出的每个采样时刻对应的第二信号特征的辐射分布剖面预测结果。根据辐射分布剖面预测结果与辐射分布剖面标注,确定损失,根据损失,对反演代理模型进行训练。
-
公开(公告)号:CN118839053B
公开(公告)日:2025-02-11
申请号:CN202411321148.5
申请日:2024-09-23
Applicant: 之江实验室
IPC: G06F16/951 , G06F16/955 , G06N3/0455 , G06F40/186
Abstract: 本申请涉及一种网页数据采集方法、系统、计算机设备和可读存储介质。该方法采集到的网页数据用于对目标领域的大语言模型进行预训练,所述方法包括:确定目标场景模板和目标关键词;将所述目标关键词填充到所述目标场景模板中,调用通用的大语言模型,生成多个搜索词句;调用搜索服务,基于所述搜索词句生成第一URL列表;基于爬虫技术和所述第一URL列表采集得到网页数据。采用本方法能够降低硬件资源消耗成本、人力成本以及提高预训练数据的获取效率。
-
公开(公告)号:CN119357275A
公开(公告)日:2025-01-24
申请号:CN202411920576.X
申请日:2024-12-25
Applicant: 之江实验室
IPC: G06F16/25 , G06F16/28 , G06N5/04 , G06N3/0455 , G06N3/08
Abstract: 基于异构数据库和大语言模型的训练数据管理系统及方法,系统包括:异构数据库系统模块,包括多个支持不同数据类型的数据库;数据管理注册中心模块,用于管理所述多个数据库及所注册的数据服务的节点信息;前置大语言模型模块,用于解析客户端发送的自然语言指令,对应生成用于描述所述数据服务的标准执行语句;数据服务控制器模块,用于解析所述标准执行语句并转换为目标执行语句,基于所述目标执行语句从所述数据管理注册中心模块中对应的节点信息调用对应的数据服务,以在对应的数据库上执行对应的操作。本申请可提升查询并收集特定训练数据等数据服务的效率,并大大降低数据管理的复杂性。
-
公开(公告)号:CN118798189B
公开(公告)日:2024-12-17
申请号:CN202411260476.9
申请日:2024-09-10
Applicant: 之江实验室
IPC: G06F40/284
Abstract: 本申请涉及一种提取大语言模型微调数据的方法、系统和计算机设备。包括:获取原始文本数据,构建语料库;语料库包括多条文本语料,文本语料以原始文本数据的最小标题作为语料输入、以最小标题对应的正文数据作为语料输出;基于语料库对各文本语料的语料输入进行非停用词划分,并计算各非停用词的逆文本频率指数;获取语料库的最小逆文本频率指数均值;基于逆文本频率指数计算每条文本语料的逆文本频率指数均值;将逆文本频率指数均值与最小逆文本频率指数均值进行比较得到比较结果,从而确定该文本语料是否为大语言模型的微调数据。采用本方法实现了高质量的大语言模型微调数据的提取,提高了微调数据的提取效率,降低了微调数据集的构建成本。
-
公开(公告)号:CN118798189A
公开(公告)日:2024-10-18
申请号:CN202411260476.9
申请日:2024-09-10
Applicant: 之江实验室
IPC: G06F40/284
Abstract: 本申请涉及一种提取大语言模型微调数据的方法、系统和计算机设备。包括:获取原始文本数据,构建语料库;语料库包括多条文本语料,文本语料以原始文本数据的最小标题作为语料输入、以最小标题对应的正文数据作为语料输出;基于语料库对各文本语料的语料输入进行非停用词划分,并计算各非停用词的逆文本频率指数;获取语料库的最小逆文本频率指数均值;基于逆文本频率指数计算每条文本语料的逆文本频率指数均值;将逆文本频率指数均值与最小逆文本频率指数均值进行比较得到比较结果,从而确定该文本语料是否为大语言模型的微调数据。采用本方法实现了高质量的大语言模型微调数据的提取,提高了微调数据的提取效率,降低了微调数据集的构建成本。
-
-
-
-
-
-