一种基于结构化文档的检索增强生成方法及系统

    公开(公告)号:CN120067340A

    公开(公告)日:2025-05-30

    申请号:CN202510126899.X

    申请日:2025-01-27

    Inventor: 徐小良 王旭辉

    Abstract: 本发明提出了一种基于结构化文档的检索增强生成方法及系统,首先提取结构化文档的文档结构化信息,其次提取实体关系和它们的描述构建知识图谱,然后使用文档结构化关系增强知识图谱,再对增强知识图谱划分社区和社区摘要构建,最后进行检索增强生成。相对于现有技术,上述一种基于结构化文档的检索增强生成方法精度更高。较之于现有的方法,由于将结构化文档的结构信息整合到知识图谱中,既增加了关系数量解决了知识图谱关系稀疏的问题,又添加了结构化信息解决了知识图谱缺失结构化信息的问题,从而使构建出的社区结构更合理,信息更丰富,因此最终回答的精度更高。

    一种训练组合图像检索模型的方法、组合图像检索方法及装置

    公开(公告)号:CN119829789A

    公开(公告)日:2025-04-15

    申请号:CN202510300773.X

    申请日:2025-03-14

    Inventor: 徐小良 黄焯奇

    Abstract: 本发明提供了一种训练组合图像检索模型的方法、组合图像检索方法及装置,包含训练阶段和检索阶段。通过构建 三元组数据集,利用图像差异描述模型扩增样本数据集,相较于人工标注,降低了标注成本,提高了效率;通过解耦和融合参考图像与修改文本特征得到图文组合特征,并通过与目标图像特征计算相似度来更新参数,从而在更细的粒度上实现图文组合,获得更加准确的图文组合特征,更好地反映出理想目标图像的特征。与现有方法相比,本发明提升了组合图像检索的召回率,降低了数据标注成本,能更好地满足交互式场景下的图像检索需求,优化用户体验。

    基于社区查询和高维向量检索的科技专家检索方法

    公开(公告)号:CN115630141B

    公开(公告)日:2023-04-25

    申请号:CN202211413270.6

    申请日:2022-11-11

    Abstract: 本发明公开了基于社区查询和高维向量检索的科技专家检索方法,该方法通过文档相似度关系对生成训练样本,将文本信息嵌入文档语义向量表示与专家论文关系异构图中。通过专家贡献度池化,提取专家在不同领域的多篇学术文档特征,解决了直接聚合不同方向的学术文档向量在向量空间分布可能存在较大差异而造成特征丢失的问题。又利用专家紧密社区信息和专家多领域的向量表征关系进一步生成领域聚簇四元组训练样本,优化专家领域聚簇向量的表示,最终实现学术文档文本信息、语义信息以及专家社区信息的紧密结合,提高了返回结果的精度。同时利用高维向量索引快速匹配以及专家重排算法,从而实现高效、精准的专家查询。

    一种基于CBOW模型和依存句法关系的词向量表示方法

    公开(公告)号:CN109992787B

    公开(公告)日:2023-04-07

    申请号:CN201910279906.4

    申请日:2019-04-09

    Abstract: 本发明公开了一种基于CBOW模型和依存句法关系的词向量表示方法。本发明首先将原始语料进行裁剪分句获得语料集合C1;针对语料集合C1进行分词及词性标注,获得语料集合C2,以及带有依存句法关系的语料集合C3;然后将语料集合C2作为CBOW模型的输入,在词向量训练过程中,通过判断中心词的词性是否为动词或名词或副词,若是则通过语料集合C3获得中心词的依存句法关系,将依存句法关系中构成强依存关系的词作为中心词的上下文,修改模型训练时的概率模型,不是则采用原有的随机窗口构造上下文。本发明综合考虑了词的词性以及依存句法信息,使得中心词具有句法上下文信息,以此来改进COBW模型的训练,从而提高词向量的表示。

    一种面向公共安全信息网络的可疑组织骨干成员搜索方法

    公开(公告)号:CN115757892A

    公开(公告)日:2023-03-07

    申请号:CN202211010772.4

    申请日:2022-08-23

    Abstract: 本发明涉及一种面向公共安全信息网络的可疑组织骨干成员搜索方法,先根据线索可疑人员群获取潜在可疑人员随机游走子图,然后根据边的支持度计算潜在可疑人员之间的随机游走转移概率,当线索可疑人员群中的每个线索可疑人员游走达到稳态产生一个稳态概率向量后,将所有稳态概率向量组合成矩阵,转置后分割生成子图中每个潜在可疑人员对应的特征向量。对所有的特征向量基于向量均值和向量间相似度的加权排序,选取Top‑k个向量对应的潜在可疑人员作为可疑组织骨干成员输出。本发明的方法根据线索可疑人员群生成潜在可疑人员随机游走子图,在子图范围内随机游走计算得到可疑组织骨干成员的近似解,目的是为了在保证较高查询精确率的情况下大大提升查询效率。

    基于关系图注意力神经网络的事件时序关系识别方法

    公开(公告)号:CN112507077B

    公开(公告)日:2022-05-20

    申请号:CN202011471742.4

    申请日:2020-12-15

    Inventor: 徐小良 高通

    Abstract: 本发明公开了一种基于关系图注意力神经网络的时序关系识别方法,该方法主要包括以下步骤:首先对事件句进行依存关系分析,获取相关的依存树;然后使用一种图递归构建策略将依存树转化为时序图;随后利用关系图注意力神经网络对时序图进行信息更新,获取时序图中每个节点的隐藏状态;最后从节点隐藏状态集合中提取出有关触发词的隐藏状态和句子表示向量,并将其放入到softmax函数中实现事件时序关系识别。本发明能够有效处理长距离非局部语义信息,捕获融合深层次的隐藏信息,显著提升了事件时序关系识别的准确度。

    一种基于近邻图的多模态搜索方法

    公开(公告)号:CN113656678A

    公开(公告)日:2021-11-16

    申请号:CN202111212706.0

    申请日:2021-10-19

    Abstract: 本发明涉及一种基于近邻图的多模态搜索方法,先将参照数据集中每一个参照对象的各个模态数据生成特征向量,然后根据各特征向量先独立计算,再用聚集函数融合计算得到各查询对象间的融合距离,由此构建参照对象的近邻图。接着根据查询内容生成包含多个特征向量的查询向量,使用查询向量在近邻图上执行多模态搜索得到最相似的查询目标。本发明的方法通过查询融合距离而同时对对象的多个模态进行查询,并能通过调整聚集函数而改变不同模态对融合距离的影响权重,从而实现了在搜索过程中对模态重要性的灵活操控,并提高了搜索的效率和精度。

    一种学术异构网络嵌入的模型训练方法及文本表示方法

    公开(公告)号:CN113626556A

    公开(公告)日:2021-11-09

    申请号:CN202111186456.8

    申请日:2021-10-12

    Inventor: 徐小良 刘俊

    Abstract: 本发明涉及一种学术异构网络嵌入的模型训练方法,先使用论文生成学术异构网络,学术异构网络包含论文节点、多种论文特征节点、边和文本内容;选择多个论文节点作为查询节点,以不同论文特征组成的元路径对学术异构网络进行游走,生成在各种论文特征查询条件下每个查询节点的紧密关系节点集;对每个查询节点、紧密关系节点集和学术异构网络进行采样,得到多个代表查询节点与其他节点关系的三元组数据;根据多个三元组数据训练语言表示模型,使模型将学术异构网络结构关系信息嵌入文本表示向量中。本发明所训练的模型能够将文本语义和学术异构网络的结构语义同时嵌入到学术领域的文本表示向量中,提高表示效果。

Patent Agency Ranking