一种基于结构理解的文档解析向量化方法及装置

    公开(公告)号:CN120087329A

    公开(公告)日:2025-06-03

    申请号:CN202510207457.8

    申请日:2025-02-25

    Abstract: 本发明涉及数据处理技术领域,公开了一种基于结构理解的文档解析向量化方法及装置,方法包括:获取待解析文档;基于待解析文档的文档格式采用目标解析工具和/或目标解析参数解析待解析文档,得到解析结果;将解析结果整理为至少一组JSON数据体;将JSON数据体转换为向量化数据;其中,待解析文档包括至少两种文档格式,不同的文档格式对应不同的目标解析工具和/或目标解析参数,文档格式至少包括DOC和PDF。基于上述方案,能够将所有的解析结果统一转换为统一的JSON数据体,再转换为向量化数据,便于后续的数据处理、分析和机器学习应用,并且使得得到的解析结果最优。

    一种聚合多维度检索策略的检索方法

    公开(公告)号:CN119829814A

    公开(公告)日:2025-04-15

    申请号:CN202510097188.4

    申请日:2025-01-22

    Abstract: 本发明涉及信息检索技术领域,公开了一种聚合多维度检索策略的检索方法。发明进行检索时,获取用户输入的检索词;基于所述检索词,分别使用各检索策略进行检索,获得各检索策略的检索结果;将所述检索词,输入语义判断模型,得到检索策略权重调整参数;根据所述检索策略权重调整参数进行计算,获得各检索策略的最终权重;根据所述各检索策略的最终权重,对所述各检索策略的检索结果进行排序,得到最终的检索结果。通过使用语义判断模型准确获得的检索策略权重调整参数,针对用户检索词的语义特征,动态调整全文检索、向量化检索和图数据库检索的权重,确保在不同查询场景下都能获得最优的检索结果。

Patent Agency Ranking