-
公开(公告)号:CN119046444B
公开(公告)日:2025-05-06
申请号:CN202411533982.0
申请日:2024-10-31
Applicant: 之江实验室
IPC: G06F16/3329
Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统,包括:将科学文献(document)切分成若干片段(chunks);迭代生成亟待抽取的字段的答案,并排除chunks中不包含亟待抽取的字段的片段;之后一边生成候选答案,一边通过差异对比的方式,排除不同chunk中的冗余答案信息,排除由于幻觉导致输出的错误答案信息,并在迭代过程中融合包含正确答案的chunk,解决了针对不同片段回答零散不易整合的问题;该方法和系统在有限计算资源的条件下,能够最大发挥生成大模型对科学文献的抽取性能。
-
公开(公告)号:CN116955972A
公开(公告)日:2023-10-27
申请号:CN202310938023.6
申请日:2023-07-28
Applicant: 之江实验室
IPC: G06F18/21 , G06N3/092 , G06N3/0455
Abstract: 一种人工反馈强化学习优化文本生成图像模型的方法及系统,其方法包括:1)准备一个用于文本生成图片的text2image初始模型和用于对文本图片对进行打分的reward初始模型;2)用步骤1)的生成模型生成文本对应的图像并进行人工标注,包括在线标注和离线标注两种方式;3)基于步骤2)得到的人工标注的文本‑图像数据集,以reward初始模型为预训练模型训练一个能对文本图片匹配度打分的reward模型;4)基于步骤3)训练好的reward模型,并准备好训练用的输入文本数据集,采用人工反馈强化学习方法对text2image初始模型进行微调。本发明通过人工对原模型生成的数据进行标注,再利用标注好的数据微调原模型,来纠正以上问题,使得模型的生成结果更符合语义信息。
-
公开(公告)号:CN118211131A
公开(公告)日:2024-06-18
申请号:CN202410627083.0
申请日:2024-05-21
Applicant: 之江实验室
IPC: G06F18/2411 , G06F18/214 , G06F18/22 , G06F18/23 , G06Q40/00
Abstract: 本发明公开了一种适用于金融大模型的文本数据预处理方法及系统,属于金融文本自然语言处理技术领域,包括:对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,计算子集中样本间的相似度,删除相似度高且时间标签小的数据;将样本切分为子串,遍历找到包含图片注释信息且长度小于阈值的子串并删除;遍历找到包含表格表达字段的子串并检测错误,结合提示工程和生成模型修复错误,得到高质量金融数据集。本发明通过将金融数据聚类后去重,极大程度上节省了计算开销和时间成本,通过处理图片注释并修复表格,得到高质量的金融数据集。
-
公开(公告)号:CN119046444A
公开(公告)日:2024-11-29
申请号:CN202411533982.0
申请日:2024-10-31
Applicant: 之江实验室
IPC: G06F16/332
Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统,包括:将科学文献(document)切分成若干片段(chunks);迭代生成亟待抽取的字段的答案,并排除chunks中不包含亟待抽取的字段的片段;之后一边生成候选答案,一边通过差异对比的方式,排除不同chunk中的冗余答案信息,排除由于幻觉导致输出的错误答案信息,并在迭代过程中融合包含正确答案的chunk,解决了针对不同片段回答零散不易整合的问题;该方法和系统在有限计算资源的条件下,能够最大发挥生成大模型对科学文献的抽取性能。
-
公开(公告)号:CN118211131B
公开(公告)日:2024-07-30
申请号:CN202410627083.0
申请日:2024-05-21
Applicant: 之江实验室
IPC: G06F18/2411 , G06F18/214 , G06F18/22 , G06F18/23 , G06Q40/00
Abstract: 本发明公开了一种适用于金融大模型的文本数据预处理方法及系统,属于金融文本自然语言处理技术领域,包括:对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,计算子集中样本间的相似度,删除相似度高且时间标签小的数据;将样本切分为子串,遍历找到包含图片注释信息且长度小于阈值的子串并删除;遍历找到包含表格表达字段的子串并检测错误,结合提示工程和生成模型修复错误,得到高质量金融数据集。本发明通过将金融数据聚类后去重,极大程度上节省了计算开销和时间成本,通过处理图片注释并修复表格,得到高质量的金融数据集。
-
-
-
-