一种面向多种检索场景的专利检索方法、装置、设备

    公开(公告)号:CN116303989A

    公开(公告)日:2023-06-23

    申请号:CN202310212099.0

    申请日:2023-02-28

    Abstract: 本说明书公开了一种面向多种检索场景的专利检索方法、装置、设备。以专利文档各字段作为训练数据,对通用语言模型进行训练得到专利领域语言模型。针对多种检索场景,通过基于不同权重多路召回与随机采样的方式筛选各专利文档正、负样本,并以此构建各检索场景的专利语义表示模型的训练数据,对专利领域语言模型进行训练,进而得到各检索场景的专利语义表示模型并以此生成专利各字段的语义向量,并存储在各检索场景的专利检索向量数据库中,根据检索字段的语义向量,从目标检索场景的专利检索向量数据库中,查找与检索字段相似的专利文档。通过上述方案,提升了专利语义表示模型针对不同检索场景的专利字段的语义表示能力,提升检索精度。

Patent Agency Ranking