一种文档相似度计算查重方法及系统

    公开(公告)号:CN118606462A

    公开(公告)日:2024-09-06

    申请号:CN202410672459.X

    申请日:2024-05-28

    Abstract: 本发明提供了一种文档相似度计算查重方法及系统,包括构建动态词库和动态资料库;基于动态词库,对待查重文档和各对比文档进行分词向量化处理,得到待查重文档和各对比文档的词条向量矩阵;并计算两者的相似度并筛选,得到对比目标文档;根据对比目标文档和所述待查重文档的加权词频‑逆文档频率指数矩阵,计算对比目标文档与待查重文档之间的精确相似度;加权词频‑逆文档频率指数矩阵基于词条长度和词条位置进行加权;该方法及系统先从动态资料库中快速筛选,缩小分析文档范围,提高查重效率;随后利用加权词频‑逆文档频率指数矩阵进行精确相似度计算,补充词频‑逆文档频率指数值忽略词条属性等重要因素的不足,从而提高相似度计算的准确率。

    一种提升大语言模型准确性的RAG混合检索方法及装置

    公开(公告)号:CN118277522A

    公开(公告)日:2024-07-02

    申请号:CN202410225234.X

    申请日:2024-02-29

    Abstract: 本发明属于RAG检索技术领域,具体涉及一种提升大语言模型准确性的RAG混合检索方法及装置,包括:基于用户的检索文本,从预先建立的向量数据库和搜索引擎中分别进行检索,得到第一检索结果和第二检索结果;所述第一检索结果和所述第二检索结果均包括:文本段落ID和文本段落的相似度评分;利用所述第一检索结果和所述第二检索结果,获取备选结果集;基于所述备选结果集中文本段落的相似度评分,确定最终的检索结果,并将最终的检索结果发送至大语言模型。本发明采用混合检索的方式,充分发挥向量检索和关键字检索的优点,弥补各自的不足,提高了检索结果的准确性和可靠性,从而为大语言模型提供更准确的外部知识,以此提高大语言模型内容生成的质量。

    一种基于大语言模型的简历匹配度评分方法及系统

    公开(公告)号:CN118071320A

    公开(公告)日:2024-05-24

    申请号:CN202410220150.7

    申请日:2024-02-28

    Abstract: 本发明提供了一种基于大语言模型的简历匹配度评分方法及系统,包括:采用大语言模型基于岗位需求解析指令,生成岗位需求内容对应的多个岗位需求指标项;采用大语言模型基于简历信息提取指令,生成简历内容对应的多个简历信息项;采用大语言模型基于匹配度评分指令,对岗位需求指标项和多个简历信息项进行匹配度分析,得到简历信息项的单项指标得分,进而得到简历内容的匹配度得分;本申请中通过将岗位需求内容和简历内容分别转换为岗位需求指标项和简历信息项,实现了基于自然语义的半结构信息提取,能够更好的适应不同格式的数据;通过使用大语言模型进行匹配度评估,可以基于自然语义和上下文信息更准确地评估简历的匹配度。

    网络攻击事件的防护策略确定方法及相关设备

    公开(公告)号:CN116896468A

    公开(公告)日:2023-10-17

    申请号:CN202310871558.6

    申请日:2023-07-14

    Abstract: 本申请提供一种网络攻击事件的防护策略确定方法及相关设备,所述方法包括获取网络攻击事件对应的原始数据;对所述原始数据进行特征提取,以得到所述原始数据对应的攻击特征;响应于确定预先构建的策略库集合中不存在所述攻击特征,基于所述攻击特征,生成所述攻击特征对应的防护策略;对所述防护策略进行检测,响应于检测到所述防护策略与所述策略库集合中的已存储防护策略存在策略冲突效应,对所述防护策略进行修正,并存储经过修正的防护策略,解决了现有技术中同一策略库中存储的策略存在冲突进而导致不能抵御网络攻击的技术问题,达到了维护网络安全的目的。

    一种数据导出方法、系统、装置以及电子设备

    公开(公告)号:CN113761041A

    公开(公告)日:2021-12-07

    申请号:CN202110837676.6

    申请日:2021-07-23

    Abstract: 本公开提供一种数据导出方法、系统、装置以及电子设备,所述数据导出方法包括:接收数据导出请求;其中,所述数据导出请求包括标准结构化数据库语句;将所述数据导出请求封装为声明对象;将所述声明对象发送到服务端;接收服务端发送的数据结果集,将所述数据结果集存储至缓冲区并进行处理;其中,所述数据结果集是由服务端根据接收到所述声明对象后从存储引擎中获取后通过stream模式发送的;将所述数据结果集写入临时文件中;将临时文件转换格式,得到数据导出结果。该数据导出方法可以解决导出大批量数据时对系统造成的性能下降,甚至宕机的问题。

Patent Agency Ranking