一种面向专利问答服务的意图识别方法及对话系统

    公开(公告)号:CN116795948A

    公开(公告)日:2023-09-22

    申请号:CN202310222860.9

    申请日:2023-03-02

    Abstract: 本发明公开了一种面向专利问答服务的意图识别方法及对话系统,该方法包括:根据专利相关法律法规数据半自动化抽取专利问答对,构造专利问答知识库;根据专利数据库训练获得专利服务语义模型,通过该模型将专利问答数据库内数据向量化构造近邻图,并训练重排模型;对于查询文本,通过字词级召回和语义级召回获得近似问句,合并问句并计算相似度,并根据重排模型重新排序,以获取最终的意图。本发明能够利用专利审查指南、专利法实施细则等专利领域相关法律法规半自动化构建专利问答知识库,同时使用字词特征与语义特征融合的问句意图识别方法,更好地进行问句意图识别,并据此给出更合适的回答,从而更好地服务专利从业人员与专利申请人。

    一种基于知识图谱的大模型指令数据集生成方法和系统

    公开(公告)号:CN118643171B

    公开(公告)日:2024-12-06

    申请号:CN202411126004.4

    申请日:2024-08-16

    Inventor: 徐小良 林哲毅

    Abstract: 本发明公开了一种基于知识图谱的大模型指令数据集生成方法及系统,先根据领域知识图谱生成知识种子,包含一个锚点实体、正样本实体集合一、负样本实体集合一;构建提示词,并生成正样本指令数据;使用知识种子中的负样本实体集合一,生成负样本指令数据;合并得到微调指令数据集;基于所述微调指令数据集,通过对比学习对开源大语言模型进行微调。本发明的方法利用实体间在图谱上的远近关系构建包含锚点实体、正负样本实体及关系的知识种子,能够区分关系较为紧密的实体中的正确知识与错误知识,从而减少模型自身存在的幻觉;再利用预设大语言模型生成指令数据,高效且低成本得获得包含相关知识的高质量微调数据。

    一种基于知识图谱的大模型指令数据集生成方法和系统

    公开(公告)号:CN118643171A

    公开(公告)日:2024-09-13

    申请号:CN202411126004.4

    申请日:2024-08-16

    Inventor: 徐小良 林哲毅

    Abstract: 本发明公开了一种基于知识图谱的大模型指令数据集生成方法及系统,先根据领域知识图谱生成知识种子,包含一个锚点实体、正样本实体集合一、负样本实体集合一;构建提示词,并生成正样本指令数据;使用知识种子中的负样本实体集合一,生成负样本指令数据;合并得到微调指令数据集;基于所述微调指令数据集,通过对比学习对开源大语言模型进行微调。本发明的方法利用实体间在图谱上的远近关系构建包含锚点实体、正负样本实体及关系的知识种子,能够区分关系较为紧密的实体中的正确知识与错误知识,从而减少模型自身存在的幻觉;再利用预设大语言模型生成指令数据,高效且低成本得获得包含相关知识的高质量微调数据。

Patent Agency Ranking