一种分布外向量检索方法及装置
    81.
    发明公开

    公开(公告)号:CN120030192A

    公开(公告)日:2025-05-23

    申请号:CN202510505842.0

    申请日:2025-04-22

    Inventor: 徐小良 岳强

    Abstract: 本发明公开了一种分布外向量检索方法及装置。该方法首先基于查询向量集为基向量集内每个基向量构建对应的锚点向量,并基于所述基向量和锚点向量构建融合图。通过融合图对待查询向量进行搜索,从而获得和待查询向量相近的结果。本方法综合考虑了基向量集和查询向量集的邻域关系,并通过融合权重实现自适应平衡,能够有效应对分布外向量检索任务,显著提升搜索精度和效率。

    一种基于近邻图索引自动构建的最近邻检索方法

    公开(公告)号:CN119311700B

    公开(公告)日:2025-04-01

    申请号:CN202411867225.7

    申请日:2024-12-18

    Abstract: 本发明公开了一种基于近邻图索引自动构建的最近邻检索方法,通过自注意力机制特征提取模块和图卷积神经网络分别提取并融合向量数据集和k近邻图的特征,使用参数性能预测模块根据特征提取器模块的输出和参数配置的拼接结果对性能指标进行预测,从而完成近邻图索引的构建。较之于现有的近邻图参数选择的方法,本发明所提出的模型能够提升近邻图参数选择的准确度和效率,且能够满足相关应用在大规模场景下的向量检索要求,优化用户的体验;同时,本发明在对向量数据集进行特征提取时,采用图神经网络进行特征提取,相较于传统的特征工程方式,使用图神经网络能够提取更丰富的特征,因此使得模型在进行近邻图参数性能预测时精度更高。

    一种基于知识图谱的大模型指令数据集生成方法和系统

    公开(公告)号:CN118643171B

    公开(公告)日:2024-12-06

    申请号:CN202411126004.4

    申请日:2024-08-16

    Inventor: 徐小良 林哲毅

    Abstract: 本发明公开了一种基于知识图谱的大模型指令数据集生成方法及系统,先根据领域知识图谱生成知识种子,包含一个锚点实体、正样本实体集合一、负样本实体集合一;构建提示词,并生成正样本指令数据;使用知识种子中的负样本实体集合一,生成负样本指令数据;合并得到微调指令数据集;基于所述微调指令数据集,通过对比学习对开源大语言模型进行微调。本发明的方法利用实体间在图谱上的远近关系构建包含锚点实体、正负样本实体及关系的知识种子,能够区分关系较为紧密的实体中的正确知识与错误知识,从而减少模型自身存在的幻觉;再利用预设大语言模型生成指令数据,高效且低成本得获得包含相关知识的高质量微调数据。

    一种基于知识图谱的大模型指令数据集生成方法和系统

    公开(公告)号:CN118643171A

    公开(公告)日:2024-09-13

    申请号:CN202411126004.4

    申请日:2024-08-16

    Inventor: 徐小良 林哲毅

    Abstract: 本发明公开了一种基于知识图谱的大模型指令数据集生成方法及系统,先根据领域知识图谱生成知识种子,包含一个锚点实体、正样本实体集合一、负样本实体集合一;构建提示词,并生成正样本指令数据;使用知识种子中的负样本实体集合一,生成负样本指令数据;合并得到微调指令数据集;基于所述微调指令数据集,通过对比学习对开源大语言模型进行微调。本发明的方法利用实体间在图谱上的远近关系构建包含锚点实体、正负样本实体及关系的知识种子,能够区分关系较为紧密的实体中的正确知识与错误知识,从而减少模型自身存在的幻觉;再利用预设大语言模型生成指令数据,高效且低成本得获得包含相关知识的高质量微调数据。

    一种面向专利问答服务的意图识别方法及对话系统

    公开(公告)号:CN116795948A

    公开(公告)日:2023-09-22

    申请号:CN202310222860.9

    申请日:2023-03-02

    Abstract: 本发明公开了一种面向专利问答服务的意图识别方法及对话系统,该方法包括:根据专利相关法律法规数据半自动化抽取专利问答对,构造专利问答知识库;根据专利数据库训练获得专利服务语义模型,通过该模型将专利问答数据库内数据向量化构造近邻图,并训练重排模型;对于查询文本,通过字词级召回和语义级召回获得近似问句,合并问句并计算相似度,并根据重排模型重新排序,以获取最终的意图。本发明能够利用专利审查指南、专利法实施细则等专利领域相关法律法规半自动化构建专利问答知识库,同时使用字词特征与语义特征融合的问句意图识别方法,更好地进行问句意图识别,并据此给出更合适的回答,从而更好地服务专利从业人员与专利申请人。

    用于专利领域对话机器人的对话状态追踪方法及装置

    公开(公告)号:CN116680398A

    公开(公告)日:2023-09-01

    申请号:CN202310549574.3

    申请日:2023-05-16

    Inventor: 徐小良 禹晨

    Abstract: 本发明公开了一种用于专利领域对话机器人的对话状态追踪方法及装置。该方法包括:基于公开的模式引导对话数据集,提出一种用于专利领域的基于模式引导的对话状态追踪模型;根据专利领域知识,构造用于专利领域对话状态追踪的模式信息;对于每一轮人机对话,使用训练得到的对话状态追踪模型,以对话上下文和专利领域模式信息作为模型输入,得到对话状态预测。本发明使用含有专利领域相关知识的模式信息引导对话状态的预测,能够解决专利领域缺乏大规模对话数据所导致的训练成本高的问题。

    一种结合硬盘与内存的近邻图向量检索方法及装置

    公开(公告)号:CN115408545A

    公开(公告)日:2022-11-29

    申请号:CN202211082182.2

    申请日:2022-09-06

    Inventor: 徐小良 倪炯康

    Abstract: 本发明涉及一种结合硬盘与内存的近邻图向量检索方法及装置,先根据数据集中的各个特征向量计算距离并构建近邻图,接着将其按4K对齐的方式优化其存储并保存在硬盘中且在内存中释放资源,接着根据保存在硬盘中的近邻图的结构信息计算采样集,再构建采样集对象的近邻图作为采样近邻图。接着使用查询向量在采样近邻图上执行最近邻搜索得到初步较相似的查询目标集,最后以得到的较相似的查询目标集作为硬盘中近邻图的初始解,执行最近邻搜索得到最相似的查询目标。本发明在保证精度的情况下,减少大规模数据搜索过程中的内存占用,和提高了搜索的效率。

    一种语义敏感的RDF知识图谱近似查询方法

    公开(公告)号:CN109992786B

    公开(公告)日:2022-11-25

    申请号:CN201910279900.7

    申请日:2019-04-09

    Abstract: 本发明公开了一种语义敏感的RDF知识图谱近似查询方法,该方法包括以下步骤:将类型相同的RDF知识图谱实体归为一类作为划入领域知识子图,并将其作为根节点,通过根节点向外遍历实体,根据实体与根节点周围的谓词的分布计算混合实体相似度,同时选定合适的阈值,将混合实体相似度大于阈值的划入子图;利用TransE方法训练各个子图,获得子图谓词之间的语义相似度;将谓词相似度作为RDF知识图谱实体之间边的权重,并通过语义敏感的路径探查方法进行Top‑K近似查询,获取语义近似的路径和实体结果。本发明利用子图划分,克服了大规模知识图谱语义相似度时间复杂度高的问题,利用语义敏感的路径探查方法加快查询的收敛速度。

Patent Agency Ranking