-
公开(公告)号:CN117763200A
公开(公告)日:2024-03-26
申请号:CN202311546501.5
申请日:2023-11-20
Applicant: 北京大学
IPC: G06F16/901 , G06F16/903 , G06N5/04 , G06N5/02
Abstract: 本发明公开了一种基于模式匹配的知识图谱检索方法与系统。本方法步骤包括:对基于模式匹配的图谱查询流程进行优化,其中,对查询表达进行优化的方法为:根据用户的输入信息查询是否存在历史查询模板/记录,如果存在则将其反馈给用户,并提示是否采用或对该历史查询模板/记录进行调整,如果调整则进入查询图编辑步骤;否则为该用户创建新的查询图并进入查询图编辑步骤;查询图编辑步骤中,根据用户添加的节点、边生成查询涉及的概念、关系和属性,然后对添加的节点和边添加约束,生成该用户的查询图;对查询执行进行优化的方法为:根据该用户的查询图运用模式匹配算法在知识图谱中进行匹配处理,获取与该用户的查询图拓扑结构匹配的子图结果。
-
公开(公告)号:CN119416878A
公开(公告)日:2025-02-11
申请号:CN202411417952.3
申请日:2024-10-11
Applicant: 北京大学(天津滨海)新一代信息技术研究院 , 燕溪智能(无锡)技术有限公司
Abstract: 本发明属于计算机自然语言技术领域,公开了一种面向政务领域大语言模型的训练数据筛选法、电子设备和存储介质,面向政务领域大语言模型的训练数据筛选法包括:获取基于政务领域的原始数据集;基于原始数据集训练得到打分模型;调用打分模型对原始数据集进行质量评估,得到质量数据集;根据质量数据集得到种子数据集;根据种子数据集得到训练数据集。本发明基于原始数据集训练打分模型,使得打分模型对大语音模型有更好的适应性,通过打分模型用于评估指令的质量,使得筛选出的训练数据更为精准。
-
公开(公告)号:CN117555985A
公开(公告)日:2024-02-13
申请号:CN202311320229.9
申请日:2023-10-12
Applicant: 北京大学
IPC: G06F16/33 , G06F16/901 , G06F16/36 , G06F16/332 , G06F40/295 , G06N3/042 , G06N3/045
Abstract: 本发明公开了一种融合预训练语言模型的知识图谱检索方法与系统。本方法为:1)从用户输入的自然语言查询语句中识别出关键实体涉及到的概念;然后对识别到的概念在知识图谱的概念模型上进行扩展,将该概念以及所述知识图谱中与该概念相邻的一跳邻居以及关系进行汇总,作为与用户查询相关的概念集合;2)根据概念集合构造提示词;3)将提示词输入大规模预训练语言模型,生成能在知识图谱上直接执行的形式语言查询语句;4)根据形式语言查询语句生成一查询图,用于用户更新形式语言查询语句;5)根据形式语言查询语句构建一查询计划;6)根据查询计划在知识图谱上执行;7)将查询结果呈现给用户。本发明提高了知识图谱检索的灵活性。
-
-