一种基于大模型的科学文献字段抽取方法及系统

    公开(公告)号:CN119046444B

    公开(公告)日:2025-05-06

    申请号:CN202411533982.0

    申请日:2024-10-31

    Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统,包括:将科学文献(document)切分成若干片段(chunks);迭代生成亟待抽取的字段的答案,并排除chunks中不包含亟待抽取的字段的片段;之后一边生成候选答案,一边通过差异对比的方式,排除不同chunk中的冗余答案信息,排除由于幻觉导致输出的错误答案信息,并在迭代过程中融合包含正确答案的chunk,解决了针对不同片段回答零散不易整合的问题;该方法和系统在有限计算资源的条件下,能够最大发挥生成大模型对科学文献的抽取性能。

    一种人工反馈强化学习优化文本生成图像模型的方法及系统

    公开(公告)号:CN116955972A

    公开(公告)日:2023-10-27

    申请号:CN202310938023.6

    申请日:2023-07-28

    Abstract: 一种人工反馈强化学习优化文本生成图像模型的方法及系统,其方法包括:1)准备一个用于文本生成图片的text2image初始模型和用于对文本图片对进行打分的reward初始模型;2)用步骤1)的生成模型生成文本对应的图像并进行人工标注,包括在线标注和离线标注两种方式;3)基于步骤2)得到的人工标注的文本‑图像数据集,以reward初始模型为预训练模型训练一个能对文本图片匹配度打分的reward模型;4)基于步骤3)训练好的reward模型,并准备好训练用的输入文本数据集,采用人工反馈强化学习方法对text2image初始模型进行微调。本发明通过人工对原模型生成的数据进行标注,再利用标注好的数据微调原模型,来纠正以上问题,使得模型的生成结果更符合语义信息。

    一种适用于金融大模型的文本数据预处理方法及系统

    公开(公告)号:CN118211131A

    公开(公告)日:2024-06-18

    申请号:CN202410627083.0

    申请日:2024-05-21

    Abstract: 本发明公开了一种适用于金融大模型的文本数据预处理方法及系统,属于金融文本自然语言处理技术领域,包括:对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,计算子集中样本间的相似度,删除相似度高且时间标签小的数据;将样本切分为子串,遍历找到包含图片注释信息且长度小于阈值的子串并删除;遍历找到包含表格表达字段的子串并检测错误,结合提示工程和生成模型修复错误,得到高质量金融数据集。本发明通过将金融数据聚类后去重,极大程度上节省了计算开销和时间成本,通过处理图片注释并修复表格,得到高质量的金融数据集。

    一种基于大模型的科学文献字段抽取方法及系统

    公开(公告)号:CN119046444A

    公开(公告)日:2024-11-29

    申请号:CN202411533982.0

    申请日:2024-10-31

    Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统,包括:将科学文献(document)切分成若干片段(chunks);迭代生成亟待抽取的字段的答案,并排除chunks中不包含亟待抽取的字段的片段;之后一边生成候选答案,一边通过差异对比的方式,排除不同chunk中的冗余答案信息,排除由于幻觉导致输出的错误答案信息,并在迭代过程中融合包含正确答案的chunk,解决了针对不同片段回答零散不易整合的问题;该方法和系统在有限计算资源的条件下,能够最大发挥生成大模型对科学文献的抽取性能。

    一种适用于金融大模型的文本数据预处理方法及系统

    公开(公告)号:CN118211131B

    公开(公告)日:2024-07-30

    申请号:CN202410627083.0

    申请日:2024-05-21

    Abstract: 本发明公开了一种适用于金融大模型的文本数据预处理方法及系统,属于金融文本自然语言处理技术领域,包括:对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,计算子集中样本间的相似度,删除相似度高且时间标签小的数据;将样本切分为子串,遍历找到包含图片注释信息且长度小于阈值的子串并删除;遍历找到包含表格表达字段的子串并检测错误,结合提示工程和生成模型修复错误,得到高质量金融数据集。本发明通过将金融数据聚类后去重,极大程度上节省了计算开销和时间成本,通过处理图片注释并修复表格,得到高质量的金融数据集。

Patent Agency Ranking