Patent search ap:("之江实验室") AND inv:"向宗元" Page 1

1.

发明授权
一种基于大模型的科学文献字段抽取方法及系统有权

公开(公告)号：CN119046444B

公开(公告)日：2025-05-06

申请号：CN202411533982.0

申请日：2024-10-31

Applicant: 之江实验室

Inventor： 李栓 , 叶宇飞 , 向宗元 , 余绍奇 , 彭中 , 杨江 , 宋子奇

IPC: G06F16/3329

Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统，包括：将科学文献(document)切分成若干片段(chunks)；迭代生成亟待抽取的字段的答案，并排除chunks中不包含亟待抽取的字段的片段；之后一边生成候选答案，一边通过差异对比的方式，排除不同chunk中的冗余答案信息，排除由于幻觉导致输出的错误答案信息，并在迭代过程中融合包含正确答案的chunk，解决了针对不同片段回答零散不易整合的问题；该方法和系统在有限计算资源的条件下，能够最大发挥生成大模型对科学文献的抽取性能。

2.

发明公开
一种人工反馈强化学习优化文本生成图像模型的方法及系统审中-实审

公开(公告)号：CN116955972A

公开(公告)日：2023-10-27

申请号：CN202310938023.6

申请日：2023-07-28

Applicant: 之江实验室

Inventor： 黄君豪 , 毛瑞琛 , 向宗元 , 陈群 , 杨纲

IPC: G06F18/21 , G06N3/092 , G06N3/0455

Abstract: 一种人工反馈强化学习优化文本生成图像模型的方法及系统，其方法包括：1)准备一个用于文本生成图片的text2image初始模型和用于对文本图片对进行打分的reward初始模型；2)用步骤1)的生成模型生成文本对应的图像并进行人工标注，包括在线标注和离线标注两种方式；3)基于步骤2)得到的人工标注的文本‑图像数据集，以reward初始模型为预训练模型训练一个能对文本图片匹配度打分的reward模型；4)基于步骤3)训练好的reward模型，并准备好训练用的输入文本数据集，采用人工反馈强化学习方法对text2image初始模型进行微调。本发明通过人工对原模型生成的数据进行标注，再利用标注好的数据微调原模型，来纠正以上问题，使得模型的生成结果更符合语义信息。

3.

发明公开
一种适用于金融大模型的文本数据预处理方法及系统有权

公开(公告)号：CN118211131A

公开(公告)日：2024-06-18

申请号：CN202410627083.0

申请日：2024-05-21

Applicant: 之江实验室

Inventor： 张计宝 , 李亮 , 贾坤澔 , 李栓 , 朱健平 , 向宗元

IPC: G06F18/2411 , G06F18/214 , G06F18/22 , G06F18/23 , G06Q40/00

Abstract: 本发明公开了一种适用于金融大模型的文本数据预处理方法及系统，属于金融文本自然语言处理技术领域，包括：对金融数据集中的样本添加次数标签和时间标签，其中，时间标签为从样本中抽取的时间信息；将样本转换为文本向量，对文本向量进行小批量聚类，得到多个子集，计算子集中样本间的相似度，删除相似度高且时间标签小的数据；将样本切分为子串，遍历找到包含图片注释信息且长度小于阈值的子串并删除；遍历找到包含表格表达字段的子串并检测错误，结合提示工程和生成模型修复错误，得到高质量金融数据集。本发明通过将金融数据聚类后去重，极大程度上节省了计算开销和时间成本，通过处理图片注释并修复表格，得到高质量的金融数据集。

4.

发明公开
一种基于大模型的科学文献字段抽取方法及系统有权

公开(公告)号：CN119046444A

公开(公告)日：2024-11-29

申请号：CN202411533982.0

申请日：2024-10-31

Applicant: 之江实验室

Inventor： 李栓 , 叶宇飞 , 向宗元 , 余绍奇 , 彭中 , 杨江 , 宋子奇

IPC: G06F16/332

Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统，包括：将科学文献(document)切分成若干片段(chunks)；迭代生成亟待抽取的字段的答案，并排除chunks中不包含亟待抽取的字段的片段；之后一边生成候选答案，一边通过差异对比的方式，排除不同chunk中的冗余答案信息，排除由于幻觉导致输出的错误答案信息，并在迭代过程中融合包含正确答案的chunk，解决了针对不同片段回答零散不易整合的问题；该方法和系统在有限计算资源的条件下，能够最大发挥生成大模型对科学文献的抽取性能。

5.

发明授权
一种适用于金融大模型的文本数据预处理方法及系统有权

公开(公告)号：CN118211131B

公开(公告)日：2024-07-30

申请号：CN202410627083.0

申请日：2024-05-21

Applicant: 之江实验室

Inventor： 张计宝 , 李亮 , 贾坤澔 , 李栓 , 朱健平 , 向宗元

IPC: G06F18/2411 , G06F18/214 , G06F18/22 , G06F18/23 , G06Q40/00

Abstract: 本发明公开了一种适用于金融大模型的文本数据预处理方法及系统，属于金融文本自然语言处理技术领域，包括：对金融数据集中的样本添加次数标签和时间标签，其中，时间标签为从样本中抽取的时间信息；将样本转换为文本向量，对文本向量进行小批量聚类，得到多个子集，计算子集中样本间的相似度，删除相似度高且时间标签小的数据；将样本切分为子串，遍历找到包含图片注释信息且长度小于阈值的子串并删除；遍历找到包含表格表达字段的子串并检测错误，结合提示工程和生成模型修复错误，得到高质量金融数据集。本发明通过将金融数据聚类后去重，极大程度上节省了计算开销和时间成本，通过处理图片注释并修复表格，得到高质量的金融数据集。

Patent Agency Ranking